NVMe M.2 verfügbar nach Cold-Boot, aber nicht nach Soft-Boot


hawihoney

Recommended Posts

Der Upgrade auf das heute morgen erschienene Unraid 6.10.1 hat mich ganz schön ins Schwitzen gebracht. Das hat allerdings nicht unbedingt etwas mit Unraid zu tun - eher mit dem Motherboard. Klären würde ich das allerdings trotzdem ganz gerne.

 

Normalerweise fahre ich meinen kompletten Server nach dem Aufspielen des Upgrade komplett herunter (SHUTDOWN), renne in den Keller und drücke auf den Power-Knopf zum Wiederhochfahren. Diesmal war ich zu faul und habe in der Unraid GUI auf REBOOT gedrückt.

 

Nach dem Wiederhochfahren fehlte eine NVMe M.2. Ich habe das dann ein paar mal ausprobiert. Bei jedem REBOOT fehlt die eine der beiden NVMe M.2 (immer die selbe). Beim SHUTDOWN fehlt sie nicht nach dem Wiederhochfahren.

 

Mir sind die Unterschiede und Details zwischen Cold-Boot und Soft-Boot noch aus meinen Assembler Zeiten bekannt, aber wie kann heutzutage so etwas noch passieren? Kennt jemand dieses Phänomen?

 

Das Board ist ein "Supermicro X12SCA-F Version 1.01" Das BIOS ist ein "American Megatrends Inc. Version 1.1. Dated: 03/02/2021".

 

@mgutt hast Du ggfs. eine Idee? Gibt es evtl ein BIOS Update das dieses Problem adressiert?

 

Vielen Dank.

 

Link to comment

hmm, das MoBo hat doch gar keine M.2 Steckplätze, oder bin ich blind?

 

Ich vermute deshalb, dass Du vielleicht so eine 4x (oder 2x?) PCIe -> M.2 Adapterkarte in den Slot gesteckt hast?

Damit bei diesen Karten mehr als eine M.2 Disk angesprochen werden kann, muß das Bios "bifurbication" unterstützen. Trotzdem ist es ein Wagnis, bei vielen MoBos funktioniert die 2.M.2 Disk im 16x Slot nicht, weil diese 4 Lanes anderweitig vom Bios zugeteilt werden. Und Du hast ja nur 8x Slots.

(bei mir z.B. gehen nur die M.2 Disks 1,3 und 4 der 4fach Karte, weil die Leitungen für Disk2 schon im Prozessor der internen GPU zugeordnet werden. Erst, wenn ich die deaktiviere, kann ich auch Disk 2 benutzen)

Guck mal ins Bios, ob da entsprechende Einstellungen vorhanden sind. Eventuell sind sie die Ursache dafür, dass nach einem Softreboot die 2te Disk "verschwindet". Es kann auch sein, dass der bootende Linux Kernel die Lanes "anders" verteilt, so dass nach einem Reboot das Bios sie nicht wiederfindet.

Dass es nach einem Hardreset wieder geht deutet darauf hin, dass die Hardwaredefaults wohl richtig sind, aber später durch fehlerhafte Einträge überschrieben werden. Vielleicht das Bios mal komplett zurücksetzen?

(oder nur M.2 Adapter für jeweils EINE Disk nehmen. Die ersten vier Lanes jedes Slots sind immer benutzbar)

 

Link to comment
6 minutes ago, MAM59 said:

hmm, das MoBo hat doch gar keine M.2 Steckplätze, oder bin ich blind?

 

Ja bist du ^^ Es hat zwei.

 

29 minutes ago, hawihoney said:

Nach dem Wiederhochfahren fehlte eine NVMe M.2. Ich habe das dann ein paar mal ausprobiert. Bei jedem REBOOT fehlt die eine der beiden NVMe M.2 (immer die selbe). Beim SHUTDOWN fehlt sie nicht nach dem Wiederhochfahren.

Bei NVMe, also PCIe, hat man erst mal das Problem, dass Hot Plug nicht existiert. Verliert also eine NVMe SSD ihre Verbindung, ist sie bis zum nächsten Neustart komplett weg. Dann hat man bei NVMe ein ähnliches Problem wie bei den GPUs, die man an VMs durchschleift. Und zwar, dass die GPU manchmal nicht richtig "zurückgesetzt" wird, wenn die VM heruntergefahren wird. Das Thema haben wir ja häufiger unter dem Schlagwort "vendor reset".

 

Und ich hatte auch schon deine Situation auf meinem Gigabyte W480M. Erst hatte ich AER Fehler in den Logs, dann flog die NVMe aus dem BTRFS RAID und nach einem Neustart war sie komplett weg. Erst ein Herunterfahren brachte sie wieder zum Vorschein. Dieses Problem ist übrigens nicht auf die Linux-Welt begrenzt:

https://www.google.com/search?q=nvme+not+detected+reboot

 

Welches NVMe Modell hast du? Die wenigsten Probleme habe ich nach wie vor mit Samsung.

 

Eventuell macht es aber auch Sinn das BIOS zu aktualisieren. Es gibt ja mittlerweile Version 1.2 und vielleicht wurde das ja sogar behoben.

 

Link to comment
2 minutes ago, mgutt said:

Welches NVMe Modell hast du? Die wenigsten Probleme habe ich nach wie vor mit Samsung.

 

Vielen Dank.

 

Samsung SSD 970 EVO Plus 1TB. "Lustigerweise" ist es immer die selbe, die nach einem REBOOT fehlt.

 

3 minutes ago, mgutt said:

Es gibt ja mittlerweile Version 1.2

 

Ich komme dann bei Gelegenheit mal auf Dich zu. Haben uns lange nicht mehr gesehen ;-)

 

Link to comment
6 hours ago, hawihoney said:

Normalerweise fahre ich meinen kompletten Server nach dem Aufspielen des Upgrade komplett herunter (SHUTDOWN), renne in den Keller und drücke auf den Power-Knopf zum Wiederhochfahren. Diesmal war ich zu faul und habe in der Unraid GUI auf REBOOT gedrückt.

Da ich nur ungerne in den Keller renne steht mein Mainboard so, daß es bei wiederkehrender Stromversorgung automatisch startet.

Davor eine ferngesteuerte Steckdose mit einer groben Verbrauchsanzeige.

Damit seh eich aus der Ferne, wenn das Board runter gefahren ist, dann trenne ich per teckdoese di eVersorgung, warte etwas, bis die Elkos wohl leer gelaufen sind und schalte die Steckdose wieder ein. Und er PC startet. :)

Ich kann so faul sein!

 

6 hours ago, hawihoney said:

Nach dem Wiederhochfahren fehlte eine NVMe M.2. Ich habe das dann ein paar mal ausprobiert. Bei jedem REBOOT fehlt die eine der beiden NVMe M.2 (immer die selbe). Beim SHUTDOWN fehlt sie nicht nach dem Wiederhochfahren.

Wenn Du die NVMe in den Plätzen tauschst: wandert der Fehler oder bleibt er am selben M.2 Steckplatz?

Vielleicht liegt es nicht an dem Mainboard, sondern an der SSD?

 

 

Link to comment
2 hours ago, DataCollector said:

Wenn Du die NVMe in den Plätzen tauschst: wandert der Fehler oder bleibt er am selben M.2 Steckplatz?

Vielleicht liegt es nicht an dem Mainboard, sondern an der SSD?

 

Guter Hinweis. Das werde später mal testen - also beim Umstieg auf Multiple-Array - in zwei Jahren oder so. Ich gehe nur ungern an die Hardware. Nur dann wenn etwas wirklich kaputt geht oder ich umbauen muss. Bei Multiple-Array Support werde ich definitiv umbauen. Im gleichen Zuge werde ich dann auch den BIOS-Update durchführen.

 

Link to comment
35 minutes ago, hawihoney said:

Im gleichen Zuge werde ich dann auch den BIOS-Update durchführen.

 

Ich werfe mal noch zusätzlich in den Ring, Schnellstart, Fast Boot, ... irgendetwas davon im BIOS aktiviert ? das birgt auch bei anderen OS's ab und an Probleme beim Neustart und Indizierung der Hardware ... ich bin jetzt glücklicherweise davon noch nie betroffen gewesen, aber das war auch mal eine Netzwerkkarten Lösung bei einem Bekannten von mir wo nach Kaltstart die Karte nicht ging ...

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.