10GB Ethernet Mellanox Technologies MT27500 [ConnectX-3] ""Abstürze""


cracyfloyd

Recommended Posts

Hallo allerseits 

 

Ich verliere seit dem Einbau ein er Mellanox Karte jeweils nach 7-10 Tagen die Verbindung zum Heimnetzwerk.

Der Output von /sbin/lspci -d 15b3:

06:00.0 Ethernet controller: Mellanox Technologies MT27500 Family [ConnectX-3]

Verbunden durch ein 3 m DAC Kabel zu einem Mikrotik CRS328-24P-4S+

 

Die Syslogs sagen soweit ich es sehen kann nichts aus. Letze Verbindung hatte der Server um 18:36 syslog-192.168.1.22.log

Diagnosticskolink-diagnostics-20220120-2103.zip

 

Gibt es durch den Topic Ersteller bereits Erkenntnisse  oder Lösungen zu seinem Problem?

Link to comment

...weil Viele mit SFP+ unter v7 Probleme haben. Weniger mit DACs, but you never know.
Warum bist du denn auf die v7 gewechselt? L3- HW Beschleunigung ist für einen CRS so ziemlich das einzige Feature in der v7 und Du hast ihn doch mit v6 gekauft und die wird immer noch gewartet. Ich empfehle die v7 noch ein wenig reifen zu lassen, zumindest für CRS.
Der TE hat einen RB5009 und kann nicht auf v6, Dein CRS schon....Versuch macht kluch.

Gesendet von meinem SM-G780G mit Tapatalk

Link to comment
18 hours ago, Ford Prefect said:

Warum bist du denn auf die v7 gewechselt?

Weil ich die REST Api benutze um gewisse Sensoren auszulesen und daher bereits vor dem stable Release von V7 geupdatet habe.

Ich probiere aber mit V6 und schaue ob ich die Verbindung immer noch verliere.

Besten Dank schon mal!

Edited by Marc Fasnacht
Link to comment
On 1/17/2022 at 12:18 PM, Ford Prefect said:

...das S-RJ10 unterhalb 70Grad geht nur mit aktiver Kühlung....hier bei mir, zwischen einem CSS610 und einemm CRS326 über 18m cat5e liegen beide bei etwa 75 bzw 80 Grad...freigegeben/normal sind noch bis >90 Grad.

also ich kann aus leidvoller Erfahrung berichten, dass sie bei 90° ABSCHALTEN 😞

Und, es ist kein großes Problem, sie in diesen Bereich zu pushen. Deshalb hat mein "lüfterloser Switch" nun einen 120mm Lüfter vor der Nase 😞

Aber, der Elektriker ist bestellt, Kupfer fliegt raus (bzw wird nicht mehr verwendet) und LWL kommt in die Wand.

Die Temperaturunterschiede sind einfach zu krass.

grafik.thumb.png.b6f8f9a834a02916a60863b5dcefba2e.png

Link to comment
On 1/20/2022 at 9:45 PM, Ford Prefect said:

v6, am besten letzte long-term zurück

Wieder keine Verbindung mehr seit heute morgen um 04:31, trotz downgrade des Mikrotik-Switchs auf v6.48.6

Die Syslogs haben keine weiteren Aufschlüsse gegeben und die Parameter aus dem Prometheus Node Exporter sehen auch normal aus bezüglich der Auslastung des Servers. 

Übergangsweise versuche ich nun noch den Active Backup Bond der Mellanox-Karte und des Motherboard-Nics. Aber die wirkliche Ursache konnte ich noch nicht finden. 

 

Link to comment
1 hour ago, Marc Fasnacht said:

Wieder keine Verbindung mehr seit heute morgen um 04:31, trotz downgrade des Mikrotik-Switchs auf v6.48.6

....schade, war aber einen Versuch wert....evtl. mal den Port am Switch gewechselt?

1 hour ago, Marc Fasnacht said:

Übergangsweise versuche ich nun noch den Active Backup Bond der Mellanox-Karte und des Motherboard-Nics. Aber die wirkliche Ursache konnte ich noch nicht finden. 

wirklich komisch.

Hast Du VMs am Start und die NICs auf virtio statt virtio-net...das führt manchmal auch zu Problemen, aber solche Auswirkungen sind ungewöhnlich.

Die Mellanox sind eigentlich auch super zuverlässig/unausfällig....bliebe noch die Option die in einen anderem Slot zu testen.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.