10GB Ethernet Mellanox Technologies MT27500 [ConnectX-3] ""Abstürze""


cracyfloyd

Recommended Posts

Ich habe seit ein paar Tagen zusätzlich einen 10GB Mellanox Lan Adapter in meinem System eingebaut. 

Leider verliert der Adapter sporadisch nach 2, 10, 30 Stunden die Verbindung und das System ist nicht mehr ansprechbar. Der Server läuft aber noch. Leider habe ich dann kein Zugriff mehr auf das Web Interface vom Unraid.

Ohne gleich in die Tiefe zu gehen kann jemand helfen oder kennt das Problem ???

 

Link to comment

Ja SFP+

Auf der anderen Seite auch SFP+ mit dem Mikrotik Routerboard RB9005.

 

Schon 2 Hersteller vom SFP+ getestet. Einmal einer von Mikrotik und jetzt aktuell von "Arista Networks SFP-10G-CU2M" bei beiden das gleiche Problem.

Habe jetzt die Tools installiert und die Firmware aktualisiert.

Jetzt mal abwarten.

Danke erstmal für die rasche Antwort.

 

 

Device #1:
----------

Device type:    ConnectX3       
Device:         01:00.0         

Configurations:                              Next Boot
         SRIOV_EN                            False(0)        
         NUM_OF_VFS                          0               
         LOG_BAR_SIZE                        0               
         BOOT_OPTION_ROM_EN_P1               False(0)        
         BOOT_VLAN_EN_P1                     False(0)        
         BOOT_RETRY_CNT_P1                   0               
         LEGACY_BOOT_PROTOCOL_P1             None(0)         
         BOOT_VLAN_P1                        0               
         BOOT_OPTION_ROM_EN_P2               False(0)        
         BOOT_VLAN_EN_P2                     False(0)        
         BOOT_RETRY_CNT_P2                   0               
         LEGACY_BOOT_PROTOCOL_P2             None(0)         
         BOOT_VLAN_P2                        0               
         IP_VER_P1                           IPv4(0)         
         IP_VER_P2                           IPv4(0)         
         CQ_TIMESTAMP                        False(0)   

 

 

 

Bildschirmfoto 2022-01-13 um 20.04.03.png

Link to comment

...ich habe sogar ne ältere FW drin:

FW Version: 2.33.5220
FW Release Date: 29.3.2015
Product Version: 02.33.52.20
Rom Info: type=PXE version=3.4.467
Device ID: 4099

 

9 minutes ago, cracyfloyd said:

Ja SFP+

Auf der anderen Seite auch SFP+ mit dem Mikrotik Routerboard RB9005.

 

Schon 2 Hersteller vom SFP+ getestet. Einmal einer von Mikrotik und jetzt aktuell von "Arista Networks SFP-10G-CU2M" bei beiden das gleiche Problem.

Habe jetzt die Tools installiert und die Firmware aktualisiert.

Jetzt mal abwarten.

Klar SFP+, aber welche Tranceiver Module genau?

Denke Du hast ein DAC und kein AOC, bzw keine Module und Fiber-Patchkabel oder?

Was sagt der RB5009 dazu? Welche ROSS Version hat der drauf (kam ab Werk mit eine 7.0rcX...aktuell ist 7.1.1 stable)

Versuche ansonsten mal den Port am MT auf 10G zu fixieren....auto-negotiation = off, rate = 10G

Link to comment
8 minutes ago, Ford Prefect said:

...ich habe sogar ne ältere FW drin:

FW Version: 2.33.5220
FW Release Date: 29.3.2015
Product Version: 02.33.52.20
Rom Info: type=PXE version=3.4.467
Device ID: 4099

 

Klar SFP+, aber welche Tranceiver Module genau?

Denke Du hast ein DAC und kein AOC, bzw keine Module und Fiber-Patchkabel oder?

Was sagt der RB5009 dazu? Welche ROSS Version hat der drauf (kam ab Werk mit eine 7.0rcX...aktuell ist 7.1.1 stable)

Versuche ansonsten mal den Port am MT auf 10G zu fixieren....auto-negotiation = off, rate = 10G

Habe 7.1.1 installiert. Die Module sind ohne Patchkabel. Die Verbindung ist fest in den Modulen integriert. Ich versuche mal fix 10G einzustellen..

 

 

Link to comment

Hallo @Ford Prefect

 

Meine Erfahrungen mit SFP+ sind noch sehr spärlich.

 

1 hour ago, Ford Prefect said:

...welches "Kabel" genau und wie lang (link?) Ein DAC geht max bis 7m !!

Für meine Mellanox 10G Karte mit SFP+ hatte ich mich Mitte letzten Jahres mit verschiedenen SFP+ DAC eingedeckt

(weil ich noch nicht genau weiß/wusste, wo ich das System hinstellen werde und dann flexibel sein wollte).
Digitus DN-81222 SFP Direktanschlusskabel 10 GBit/s 2m
Digitus DN-81223 SFP Direktanschlusskabel 10 GBit/s 3m
Digitus DN-81224 SFP Direktanschlusskabel 10 GBit/s 5m
Digitus DN-81225 SFP Direktanschlusskabel 10 GBit/s 7m
Digitus DN-81226 SFP Direktanschlusskabel 10 GBit/s 10m

 

Das längste Kabel ist 10m lang.

Sollte ich dabei skeptisch sein?

 

Link to comment
42 minutes ago, DataCollector said:

Für meine Mellanox 10G Karte mit SFP+ hatte ich mich Mitte letzten Jahres mit verschiedenen SFP+ DAC eingedeckt

[...]

Das längste Kabel ist 10m lang.

Sollte ich dabei skeptisch sein?

Ja, nein, jein...kommt auf die Machart an.

Es gibt "passive" und "aktive" DAC ... passiv geht bis 7m, aktiv bis 10m, siehe: https://community.fs.com/blog/sfp-dac-twinax-cable-deploy-guide.html

Eigentlich verwendet man die gerne zwischen Verbindungem im Rack.

Da die recht günstig sind, aber eben mit fest angebautem Modul/Stecker sind die nur wirklich was für frei fliegende Verkabelung, nix um die durch ein Rohr zu ziehen.

Es gibt auch optische Direktkabel, AOC...wie ein DAC nur eben aktiv und mit Glasfaser...da geht im Prinzip wieder jede Länge.

Ein Satz aus 2x LWL-Tranceiver und LWL-Patchkabel ist flexibler und nicht unbedinget teurer, wenn es an die 7m/10m Marke geht.

Ich würde sowieso immer erstmal bei fs.com schauen...da stimmt in der Regel alles.

Edited by Ford Prefect
Link to comment

Schau mal bei dem Mikrotik auf den Temperaturverlauf des SFP+ Ports. Ich hatte hier das Problem mit Kupfermodulen. Die werden bei größeren Kabellängen auch extrem heiß und ab 90° schaltete der Mikrotik das Port ab. Nun hat der lüfterlose Switch eben eine 120mm PC Lüfter vor der Nase, der ihn über den Winter bringt, bis das LWL Kabel verlegt ist und die Module gewechselt werden können.

Die Abschaltungen waren immer erst nach ein paar Stunden.

Kann sein, dass die Mellanox Karte auch so eine Temperaturüberwachung hat. Manche DAC Module haben eine, viele nicht... Kann sein, dass der Router deshalb das Problem gar nicht mitbekommt und die Hardware zu glühen anfängt. Mal ein IR Thermometer befragen...

 

 

Link to comment
55 minutes ago, Michael Meiszl said:

Kann sein, dass die Mellanox Karte auch so eine Temperaturüberwachung hat.

Denke das hat sie...im Treiber Plugin steht auch die Temp.

55 minutes ago, Michael Meiszl said:

Manche DAC Module haben eine, viele nicht...

...die DACs ohne Temp sind wahrscheinlich die passiven, welche eh nur 1/4 der Leistung eines aktiven DACs ziehen und diese wieder nur die Hälfte eines LWL-Tranceivers.

Probleme können wirklich nur die 10GB-T/RJ45 Module machen...die Temp-Grenze kann man im MT aber einstellen.

In meinem Switch ist sie für ein MT S-RJ10 Modul auf 95dC.

Link to comment
2 hours ago, Ford Prefect said:

DACs ohne Temp sind wahrscheinlich die passiven, welche eh nur 1/4 der Leistung eines aktiven DACs ziehen und diese wieder nur die Hälfte eines LWL-Tranceivers

 

Also meinen Messungen zufolge sind die DACs viel verbrauchsintensiver, als die LWL Dinger.

Aber ich gebe zu, alle, die ich probiert hatte, lagen deutlich unter den RJ45 Modulen.

Innerhalb eines Rechners kann es natürlich mochmals zu höheren Temperaturen durch Wärmestaus (Kabel blockieren den Luftstrom zu den Slots oder so) führen.

Und wenn der DAC gar keinen Sensor hat, weiß auch die Karte nicht (ich geh mal davon aus, dass sie gar keinen eigenen hat, sondern wie üblich, den des Moduls mitbenutzt) dass es ihr eigentlich zu warm ums Herz ist.

Schadet ja nicht, wenn er mal im Störfalle einen Blick auf die Temperatur wirft hilft vielleicht dabei, den Fehler einzukreisen.

 

 

Edited by Michael Meiszl
  • Like 1
Link to comment

Hallo @Ford Prefect

18 hours ago, Ford Prefect said:

Ja, nein, jein...kommt auf die Machart an.

Es gibt "passive" und "aktive" DAC ... passiv geht bis 7m, aktiv bis 10m, siehe: https://community.fs.com/blog/sfp-dac-twinax-cable-deploy-guide.html

Digitus DN-81226 SFP
https://www.digitus.info/en/products/active-network-components/sfp-technology/dac-cable/dn-81226-01/?pdf=1
"...AWG24 Twinax cable
10,52 Gbps supported rate
Supported applications: 10G Ethernet (10,21Gbps), 10G fiber channel (10,52Gnps)..."

 

Ich gehe bei dem Kabel von passiv aus, da sich die Beschreibung nur in dem Kabelquerschnitt von beispielsweise der 1m Variante unterscheidet.

 

Digitus DN-81221 SFP
https://www.digitus.info/de/produkte/aktive-netzwerkkomponenten/sfp-technik/dac-kabel/dn-81221-01/?pdf=1
"...AWG30 Twinax cable
10,52 Gbps supported rate
Supported applications: 10G Ethernet (10,21Gbps), 10G fiber channel (10,52Gnps)..."

 

18 hours ago, Ford Prefect said:

Eigentlich verwendet man die gerne zwischen Verbindungem im Rack.

Da die recht günstig sind, aber eben mit fest angebautem Modul/Stecker sind die nur wirklich was für frei fliegende Verkabelung, nix um die durch ein Rohr zu ziehen.

Ja, soweit hatte ich es auch in Erfahrung gebracht.

Da der Hersteller aber auch dickere Adern verwendet hatte, war ich nicht davon ausgegangen, daß man etwas unbrauchbares herstellt und verkauft.

Naja, muß ich dann doch irgendwan mal testen. Ich habe eben mit SFP+ noch kaum Erfahrung.

Mir geht es dabei hauptsächlich um die Stromeinsparung gegenüber 10GBiT/s RJ45 Ethernet auf lange/dauer Betriebszeit.

 

18 hours ago, Ford Prefect said:

Es gibt auch optische Direktkabel, AOC...wie ein DAC nur eben aktiv und mit Glasfaser...da geht im Prinzip wieder jede Länge.

Mir ging es um die erwaehnten passiven DAC.

 

Danke!

Link to comment
38 minutes ago, DataCollector said:

Da der Hersteller aber auch dickere Adern verwendet hatte, war ich nicht davon ausgegangen, daß man etwas unbrauchbares herstellt und verkauft.

Es ist wohl eine Frage der Toleranzen...ledigleich bei <7m kannst Du relativ sicher sein, dass die günstigen passiven DAC funktionieren.

Aber es kann eben mit >7 auch gehen.

Ich habe einen LInk zwiscehn EG und OG, ca, 18m cat5e zwischen zwei S-RJ10 laufen..10G Link ohne jeden Schluckauf bisher. Innerhalb der Spezifikation ist das auch nicht.

 

Also Versuch macht kluch....

 

38 minutes ago, DataCollector said:

Mir geht es dabei hauptsächlich um die Stromeinsparung gegenüber 10GBiT/s RJ45 Ethernet auf lange/dauer Betriebszeit.

Na, weden so 2W pro Seite sein ...da kommt schon was zusammen über die Zeit

Link to comment
26 minutes ago, Ford Prefect said:

Ich habe einen LInk zwiscehn EG und OG, ca, 18m cat5e zwischen zwei S-RJ10 laufen..10G Link ohne jeden Schluckauf bisher. Innerhalb der Spezifikation ist das auch nicht.

Als ich damals (2014) meinen Netgear XS708E (V1) kaufte stand im Handbuch in einer Tabelle Cat5e 10Gb max. 55m.

In einem späteren Download hatten sie es auf Cat6 abgeändert.

Aber er hat lange Jahre Cat5e mit 10Gb stabil befeuert.

Erst seit ich den Mikrotik 12 Port habe, wir der XS708E nur noch zum adaptieren benutzt (da der Mikrotik sich nicht mit meiner 10Gb QNAP NAS Karte vertragen will.

 

Link to comment
On 1/14/2022 at 11:50 AM, Michael Meiszl said:

Schau mal bei dem Mikrotik auf den Temperaturverlauf des SFP+ Ports. Ich hatte hier das Problem mit Kupfermodulen. Die werden bei größeren Kabellängen auch extrem heiß und ab 90° schaltete der Mikrotik das Port ab. Nun hat der lüfterlose Switch eben eine 120mm PC Lüfter vor der Nase, der ihn über den Winter bringt, bis das LWL Kabel verlegt ist und die Module gewechselt werden können.

Die Abschaltungen waren immer erst nach ein paar Stunden.

Kann sein, dass die Mellanox Karte auch so eine Temperaturüberwachung hat. Manche DAC Module haben eine, viele nicht... Kann sein, dass der Router deshalb das Problem gar nicht mitbekommt und die Hardware zu glühen anfängt. Mal ein IR Thermometer befragen...

 

 

Temperatur liegt bei knapp über 50 Grad. Also alles im grünen. Es passiert ja selbst dann, das sich das Modul abmeldet, wenn nichts übertragen wird. Kabellänge ist gerade mal 1.5 Meter. Ich habe 3 DAC Module von unterschiedlichsten Herstellern probiert. Bei allen Modulen das gleiche. Ich bin jetzt erstmal wieder auf meine Ethernet Karte gegangen da jedesmal mein IOBroker und die Datenbanken unbrauchbar waren. 

Link to comment

...die Frage ist auf welcher Seite das Problem ist. Kann auch der RB5009 sein.

Gibt einige, die nach dem Wechsel auf die v7.1.1 von ROS über Portflaps und Ausfälle von 10G Modueln klagen, auf ARM Switches. Leider kann der RB5009 nur v7...aber Du könntest mal die 7.2.rc1 testen oder auf die 7.1 zurück.

 

Edit: ...hast Du im "Switch" Menü bei den Ports evtl das L3-HW-Offloading aktiviert?...dann mach das mal aus.

Edited by Ford Prefect
Hinweis L3-HW-Offloading beim MT ergänzt
Link to comment
2 hours ago, ich777 said:

Probier doch mal SFP+ Module mit Glasfaser, so benutz ich das ganze.

Das wäre auch mein Rat gewesen.

Meine Mellanox läuft seit einem Jahr etwa stabil mit einem 0815 sfp+ Gasfasermodul am Mikrotik CS611.

 

Hab das damals gemacht weil ich mir keine Probleme mit zwei RJ45 Modulen im kleinen Switch einhandeln wollte und hatte Erfolg.

Server mit Glasfaser, Workstation mit Kupfer. Knapp 1Gb/s Übertragungsgeschwindigkeit auf den Servercache.

Ich kann bei Bedarf raussuxhen was ich gekauft habe.

 

Vergesst die Karte nicht. Kann ja auch mal kaputt gehen sowas.

Link to comment
2 minutes ago, MartinG said:

Meine Mellanox läuft seit einem Jahr etwa stabil mit einem 0815 sfp+ Gasfasermodul am Mikrotik CS611.

Ich kann die Module von fs.com empfehlen, sind schnell geliefert günstig und gut (kein defekt bis jetzt).

 

Oder du holst dir welche von 10Gtek von Amazon.

Link to comment

Ok, Temperatur isset dann wohl nich, aber man sollte schonmal einen Blick in das Fehlerprotokoll des Mikrotik werfen, wenn die Situation eintritt. Schaltet er selber das Port ab? Verliert er den Carrier? (dann wohl mehr auf der PC Seite verursacht) oder steht da sonst irgendein Eintrag?

Fehlerzähler gibts da auch, nicht wirklich hilfreich, aber zumindest sieht man da, dass irgendwelche Übertragungsfehler sind oder nicht.

Jumbo Frames sind meist kein Problem, aber Flow Control kann zu  Lockups führen! Auch hier ein Blick in die Switch Statistiken werfen!

Ich glaub auch nicht, dass da irgendwas an der Karte kapput ist, vermute mehr, unterschiedliche Einstellungen auf beiden Seiten, die zu Blockaden führen (z.B. Flow Control nur einseitig aktiviert)

Bei 1,5m Länge ist es egal ob Kupfer oder LWL, erst ab 30m wird Kupfer sehr heiß und die Kabel erfordern bessere Qualitäten.

 

Link to comment
9 hours ago, MartinG said:

Es ging da eigentlich nicht um die Kabel. Es geht um die sfp+ 10G Ethernetadapter die tatsächlich sehr heiß werden.

Ja klar werden die heiß. Aber nicht weil sie es so gerne warm haben wollen, sondern weil sie gegen den elektrischen Widerstand des Kabels ankämpfen müssen. Und weil der mit zunehmender Länge immer weiter ansteigt, werden sie dann immer heißer.

 

Und bei etwa 30m Länge kommen wir in einen kritischen Bereich, zumindest bei den Mikrotik Modulen. Andere sind hier aber auch nicht besser und braten schön vor sich hin.

 

Zusätzlich zum Widerstand treten bei wachsender Länge Signalverfälschungen auf. Mit den bisher üblichen Cat5(e) Kabeln ist dann wirklich bei maximal 30m Schluss, erst mit moderneren Cat7 Kabeln kommt man bis auf 80m. Cat8 ist zwar noch schneller, aber nur noch für kurze Distanzen.

 

Insofern muss man den SFP+ Adapter und das angeschlossene Kabel als Einheit betrachten.

 

Link to comment

Das ist theoretisch klar. Tatsächlich habe ich hier mit 10m Leoni F10-130 und kurzen hochwertigen Patchkabeln  am Modul eine Temperatur die anfassen unlustig werden lässt. Original Mikrotik Modul.

 

Ein Wärmefehler bei nur einem Modul und so kurzem Kabel ist zwar unwahrscheinlich,  aber vorstellbar.

 

Gruß Martin 

Edited by MartinG
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.