Jump to content

NVME Cache upgraden


SidM

Recommended Posts

Hallo zusammen und allen ein Frohes Neues Jahr!

 

Da morgen wahrscheinlich meine beiden 2TB WD Black SN770 kommen und ich damit beabsichtige die jetzigen 1TB SN750 im BTFRS Pool auszutauschen wollte ich nochmal hier nach der richtigen Vorgehensweise nachfragen.

 

Variante 1 wie @mgutt hier beschrieb, wobei es ja dort nur um eine NVME im Pool ging oder

Variante 2:

- Array stoppen

- Unraid runterfahren

- Eine der beiden vorhanden NMVE gegen eine neue tauschen

- Unraid wieder starten

- Neue NVME den Pool zuweisen

- Array starten und warten bis die Daten kopiert wurden

- Array wieder stoppen

- Unraid runterfahren

- Die zweite NNVME gegen die größere tauschen

- Unraid wieder starten

- 2.te neue NVME den Pool zuweisen

- Array starten und warten bis die Daten kopiert wurden

- Sich an den freien Speicherplatz und hoffentlich verschwunden Fehler erfreuen 

 

Falls nicht habe ich dann die Nase voll und werde auf die Samsung 980 Pro 2TB upgraden. 

 

Update des BIOS von der F4 auf F5 hat nicht gebracht.

nvme_core.default_ps_max_latency_us=5500

bringt auch nix

pcie_aspm=off

damit habe ich keine Fehlermeldungen mehr, aber dafür erreiche ich keine niedrigen C-States

Habe dann heute noch versucht das System mit einer "Hiren’s BootCD PE" zu booten und dort das WD Dashboard für das Firmware Update (Wenn es denn überhaupt eins gibt?) zu installieren, aber 2 .dll datein haben gefehlt. Und selbst als ich diese eingefügt habe kam noch die Fehlermeldung "0xc00007b".

Der einzige Grund warum ich nicht gleich auf die Samsung 980 Pro gehe, ist die Preisdifferenz von 140€ --> 209€ 

Link to comment

So kurzes Update von mir:

 

Habe die NVME's mit der ersten Variante ausgetauscht, ging Problemlos!

 

Den Eintrag "pcie_aspm=off" ist entfernt und das Ergebnis: 

1952143138_23-01-0416-17-575826.thumb.png.dde26d61196842ab599d5490ab81233c.png

Hat also (fast) nichts gebracht, nur dass die Fehlermeldung im Gegensatz zur SN 750 nicht mehr im Sekundentakt auftauchen, aber immer noch ärgerlich.

 

Habe mir dann noch nen externes Gehäuse von NVME auf USB gekauft um damit die Firmware der NMVE's zur aktualisieren, aber da hatte ich nen Denkfehler. 

Denn im System wird die NVME ja dann nur als USB-Controller erkannt, mit dem das WD Dashboard natürlich nix anfangen kann.

Als letzten Versuch habe ich mir dann noch ein Windows 10 To Go auf einer Samsung T5 erstellt, auf dem sich dann auch das WD Dashboard installieren lies.

 

Aber zur meiner Befürchtung war schon die aktuellste Firmware auf den SN770 drauf (731100WD) und ebenso auf den vorher installierten SN750 (111110WD).

Also Stand heute ist es nicht empfehlenswert auf den Gigabyte Gigabyte C246M-WU4 und auch beim Gigabyte C246M-WU2, WD NVME's vom Typ SN 750 und SN770 in Verbindung mit Linux einzusetzen. Wie es bei der SN 850(x) oder anderen von Western Digital aussieht weiß ich nicht, befürchte aber selbiges. 

 

  • Thanks 1
Link to comment
30 minutes ago, jj1987 said:

Die machen bei mir überhaupt keine Probleme

ich schätze da hängen immer mehrere Faktoren dran, ich habe ja auch eine 2tv SN750 hier und 0 Fehler oder Meldungen oder Sonstiges ...

 

und da hier der Wechsel auch nicht das gewünschte Ergebnis bringt ... wird es wohl nicht (nur) an den gewählten nvme's liegen, was auch immer die Fehler verursacht, evtl. die Jagd nach hohen C States (wie oben beschrieben), die Kombi CPU, Board, RAM, nvme ... ich nutze sn750 er allerdings auf einem asrock (mein pers. Server) und auf einem MSI Board, also auch andere Gegebenheiten, ebenso mit dGPU's, sprich eh keine hohen C States machbar aktuell.

Link to comment

Irgendwie hab ich das bis jetzt übersehen:

 

602148036_2023-01-08(16).thumb.jpg.0d7bc34d4176dcbb22fe87491dace4e8.jpg

 

Der Cache funktioniert einwandfrei und hab auch keine Probleme in Dockern oder VM's. 

Irgendwas habe ich beim tausch wohl falsch gemacht?

 

In der cache.cfg aus der Diagnostic.zip konnte ich entnehmen dass dort noch die alten NVME's enthalten sind. Das wird der Fehler sein. 

Hab das Array zwischenzeitlich mal gestoppt, hab aber nix gefunden wie ich die alten Einträge entfernen kann. Muss ich eine neue Config erstellen? Habe ich den Zusammenhang bis jetzt noch nicht gelesen. 

 

Vielen Dank!

cache.cfg

Link to comment

Alle Shares auf Cache Yes stellen, Docker und VM stoppen und den Mover anwerfen. Die SSD muss komplett geleert und der Pool neu erstellt werden.

 

Ich empfehle dazu Tools > New Config und nur Array behalten. Dann mit dem UD Plugin die NVMes von Partitionen befreien, damit beim Neuerstellen des Pools unRAID diese neu erstellt.

Link to comment

Mahlzeit!

 

Hab es dann gestern noch hinbekommen, auch wenn mir das ganze Suspekt erscheint.

 

Nachdem Neustart, Array Stoppen oder das entfernen einer NVME aus der Cache Pool Zuweisung nix gebracht hat, habe ich gestern noch folgendes probiert.

 

- Array gestoppt (hier konnte man bei der Zuweisung des Cache Pools noch die alten Bezeichnung unter den neu ausgewählten Platten sehen

- dann habe ich die Slot-Anzahl von 2 auf 1 geändert, somit verschwand auch der/die alten Einträge.

- Array wieder gestartet (mit einer ausgewählten NVME)

- die einzelne Cache NVME war jetzt grün und Docker gingen auch wie gewohnt, sowie vereinzelte darauf enthaltene Daten die ich getestet habe.

- Array gestoppt

- Anzahl der Slots wieder auf 2 geändert und die 2te NVME hinzugefügt

- Array gestartet

- die erste NVME war vom Status noch immer grün und die zweite jetzt Blau. 

- jetzt wurden die Daten von der ersten zur zweiten NVME gespiegelt (warum versteh ich allerdings nicht, müssten ja vorher schon identisch gewesen sein?)

- Nach den Vorgang der ca 10 Minuten gedauert hat, war die zweite allerdings noch immer im "Status Blau"

- Danach habe ich noch ein Neustart von Unraid gemacht und nun waren auch beide wieder im Normal Zustand

 

@mgutt hat sich seit Dezember 2020 etwas an der Vorgehensweise, wie du in den oben verlinkten Beitrag geschrieben hast verändert? Denn dort war ja noch keine Rede von "new Config".

 

Ich habe mehrmals darüber nachgedacht, war mir aber schlussendlich zu "Riskant" . New Config klingt erstmal Hart und zudem war ich mir auch unschlüssig ob dies auch beim Pool funktioniert.

Denn als Beschreibung steht ja:

"Dies ist eine Anwendung, um die Array Datenträger Konfiguration zurückzusetzen, sodass alle Datenträger als "Neue" Datenträger erscheinen, als wäre dies ein neuer Server."

Zudem würde noch hinzukommen, wenn ich das richtig gelesen habe, dass die Parität wieder neu aufgebaut bzw. berechnet werden müsste.

 

 

Link to comment

Langsam verzweifele ich…

 

Nachdem nun die WD Black SN 770 auch nicht den erwünschten Erfolg gebracht haben und immer noch korrigierte AER Fehler Im LOG erschienen, habe ich vergangener Woche 2 neue Samsung 980 Pro 2TB mit Kühlkörpern zugelegt.

 

Damit war jetzt Ruhe. Jedenfalls bis gestern. Als ich auf die WebUI von Unraid schaute, musste ich feststellen dass der LOG zu 100% gefüllt war. Was die Ursache war konnte ich nicht sehen, da sich der LOG nicht öffnen lies.

Also hab ich den Server gestern neugestartet und es war danach auch nichts auffälliges zu sehen.

 

Bis eben 08.04 Uhr als ich das erste mal seit gestern Abend wieder die WebUI öffnete.

Beim Aufruf ging erst 1 Kern auf volle Auslastung und danach einer nach den anderen, bis 100% Systemauslastung erreicht war.

Als ich in den LOG geschaut habe ging es auch genau mit den Fehlern los, wo ich gerade die WebUI geöffnet habe.

Die syslog.zip habe ich euch angehangen.

 

Und dieses mal steht auch was von unkorrigerten Fehlern und auch  „can‘t find device of ID00dc“ sowie „device recovery successfull„

 

Was kann das sein?

unraid-syslog-20230118-0740.unraid-syslog-20230118-0740.zipzip

 

 

Edited by SidM
Link to comment
34 minutes ago, SidM said:

Was kann das sein?

Kannst du deine Diagnostics mal neu hochladen, die kann man nicht öffnen.

 

Hast du denn AER schon mal abgeschaltet? Ich hab das auch aus weil sonst meine DigitalDevices Karten nicht richtig funktionieren in Kombination mit meinem Motherboard.

AER ist übrigens Advanced Error Reporting

 

Du kannst das wenn du das deiner syslinux.conf hinzufügst deaktivieren:

pci=noaer

(damit deaktivierst du es vollständig, selbst wenn ich im BIOS AER Deaktiviere und ASPM auf AUTO stellt bekomme ich die Meldung im log)

 

Meistens wird die Meldung wegen eines Bugs im Kernel ausgelöst.

 

EDIT: Das ist übrigens ein gültiger Workaround für das Problem und so sollten auch die WD von oben funktionieren.

Link to comment

Ich habe jetzt nochmal versucht sie Syslog.zip als auch die darin enthaltene .txt zu uploaden. Bekomme aber immer den Fehler " Sorry, an unknown server error occurred when uploading this file. (Error code: -200)" angezeigt. Selbst ein Bild geht nicht. Ist die Uploud funktion beschädigt? Hab es zwei verschiedenen Geräten probiert. Gestern war ja auch das Forom DOWN, jedenfall konnte ich nicht zugreifen.

Link to comment
49 minutes ago, SidM said:

Selbst ein Bild geht nicht. Ist die Uploud funktion beschädigt? Hab es zwei verschiedenen Geräten probiert. Gestern war ja auch das Forom DOWN, jedenfall konnte ich nicht zugreifen.

Ich werd das mal melden.

 

Gestern war DoS Tag (und heute teilweise euch) fürs Forum und es wurde Cloudflare vor geschaltet, möglicherweise müssen da noch Kleinigkeiten konfiguriert werden.

 

40 minutes ago, SidM said:

Da sich die Meldungen ständig wiederholen und es sonst Zuviel für den Upload wird, ist zwischen  08.04 Uhr und 10.00 Uhr ein Sprung drinnen.

Hast du denn mein Kommentar von oben gelesen?

 

Bitte schalt doch AER aus wie oben von mir beschrieben und schau mal ob es dann funktioniert, wie gesagt, bei manchen Hardwarekonfigurationen kann es zu diesem Bug im Kernel kommen und du solltest AER ausschalten.

 

 

Außerdem hast du hier ein Problem mit Plex, aber das ist eben Plex, das seh ich öfter mal in den logs:

Jan 18 02:02:19 Unraid kernel: Plex Transcoder[16934]: segfault at 148ee0fc0000 ip 0000148ee53f2204 sp 0000148ee1a53948 error 4 in ld-musl-x86_64.so.1[148ee53ad000+53000]
Jan 18 02:02:19 Unraid kernel: Code: 75 f4 c3 cc cc cc 48 89 f8 48 83 fa 08 72 14 f7 c7 07 00 00 00 74 0c a4 48 ff ca f7 c7 07 00 00 00 75 f4 48 89 d1 48 c1 e9 03 <f3> 48 a5 83 e2 07 74 05 a4 ff ca 75 fb c3 cc cc 48 89 f8 48 29 f0

 

Welchen Container verwendest du denn? Ich würde dir dazu raten das du den offiziellen verwendest, das sieht mir nach einem nicht offiziellen aus oder?

Die Container sollten übrigens untereinander kompatibel sein, egal von welchem Maintainer.

Link to comment
4 minutes ago, ich777 said:

Gestern war DoS Tag (und heute teilweise euch) fürs Forum und es wurde Cloudflare vor geschaltet, möglicherweise müssen da noch Kleinigkeiten konfiguriert werden.

Ahh Okay. So ein Shi***

 

5 minutes ago, ich777 said:

Hast du denn mein Kommentar von oben gelesen?

 

Bitte schalt doch AER aus wie oben von mir beschrieben und schau mal ob es dann funktioniert, wie gesagt, bei manchen Hardwarekonfigurationen kann es zu diesem Bug im Kernel kommen und du solltest AER ausschalten.

Sorry, ja hab ich gelesen. 

ich versteh nur nicht, warum ne Weile Ruhe war und jetzt wieder Fehler auftreten. 

Mit 

pcie_aspm=off

stelle ich ja alle Energiesparmodi ab. Okay ist blöd und nicht wirklich nützlich.

 

Mit 

nvme_core.default_ps_max_latency_us=5500

verhindere ich die tieferen Schlafzustände der NVME. Ging bei der WD nicht, Fehlermeldung noch immer da.

 

Wegen der bekannten Probleme mit WD hab ich mir jetzt extra die Samsung's gekauft weil diese ja nicht den Fehler haben. @mgutt kann vielleicht noch was dazu sagen? du hast doch die Samsung Evo 970 Plus gehabt? mit den gleichen Mainboard bzw. der ITX Version Version davon.

 

Ist es nicht besser wenn PCIe Advanced Error Reporting angeschalten bleibt? Wenn es wirklich unnütz ist, dann kann ich es ja deaktiveren. Nur dann könnte ich ja wirklich auch wider die SN770 einsetzen.

Die Auslastung mit den Prozessor hatte ich allerdings heute zum ersten mal und weder mit der SN750 noch SN770.

 

kommen die Fehler auch wirklich von den NVME's? Der Fehler war sonst immer wie hier beschrieben.

 

Wie kann ich den identifizieren an welchen Port welches Gerät hängt. Im Log steht ja "pcieport 0000:00:1b.4:" wenn ich aber unter Systemgeräte schauen, dann sehe ich eher sowas: 

[144d:a80a] 03:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd NVMe SSD Controller PM9A1/PM9A3/980PRO
[N:0:6:1]    disk    Samsung SSD 980 PRO with Heatsink 2TB__1   /dev/nvme0n1  2.00TB
[144d:a80a] 06:00.0 Non-Volatile memory controller: Samsung Electronics Co Ltd NVMe SSD Controller PM9A1/PM9A3/980PRO
[N:1:6:1]    disk    Samsung SSD 980 PRO with Heatsink 2TB__1   /dev/nvme1n1  2.00TB

 

Link to comment
3 minutes ago, SidM said:

stelle ich ja alle Energiesparmodi ab. Okay ist blöd und nicht wirklich nützlich.

Aber das ist nicht das gleiche wie AER, und du musst auch ASPM nicht ausschalten.

 

4 minutes ago, SidM said:

Ist es nicht besser wenn PCIe Advanced Error Reporting angeschalten bleibt? Wenn es wirklich unnütz ist, dann kann ich es ja deaktiveren. Nur dann könnte ich ja wirklich auch wider die SN770 einsetzen.

Nein, wie gesagt das ist ein Bug im Kernel. Wenn ich bei mir AER nicht ausschalte funktionierten meine TV Karten wie gesagt nicht richtig und du kannst unmöglich vom Server TV sehen.

Das ist nur Reporting, vergiss das ganze drum herum mal, Error Correction wird trotzdem im Hintergrund gemacht sollte es nötig sein.

Link to comment
37 minutes ago, ich777 said:

Aber das ist nicht das gleiche wie AER, und du musst auch ASPM nicht ausschalten.

Das wollte ich auch nicht damit sagen.

 

38 minutes ago, ich777 said:

Nein, wie gesagt das ist ein Bug im Kernel. Wenn ich bei mir AER nicht ausschalte funktionierten meine TV Karten wie gesagt nicht richtig und du kannst unmöglich vom Server TV sehen.

Das ist nur Reporting, vergiss das ganze drum herum mal, Error Correction wird trotzdem im Hintergrund gemacht sollte es nötig sein.

Okay, ich werde mal beobachten, wie sich das System weiter verhält und wenn jetzt nochmal das Problem auftaucht pci=noaer hinzufügen.

 

1 hour ago, ich777 said:

Außerdem hast du hier ein Problem mit Plex, aber das ist eben Plex, das seh ich öfter mal in den logs:

Jan 18 02:02:19 Unraid kernel: Plex Transcoder[16934]: segfault at 148ee0fc0000 ip 0000148ee53f2204 sp 0000148ee1a53948 error 4 in ld-musl-x86_64.so.1[148ee53ad000+53000]
Jan 18 02:02:19 Unraid kernel: Code: 75 f4 c3 cc cc cc 48 89 f8 48 83 fa 08 72 14 f7 c7 07 00 00 00 74 0c a4 48 ff ca f7 c7 07 00 00 00 75 f4 48 89 d1 48 c1 e9 03 <f3> 48 a5 83 e2 07 74 05 a4 ff ca 75 fb c3 cc cc 48 89 f8 48 29 f0

 

Welchen Container verwendest du denn? Ich würde dir dazu raten das du den offiziellen verwendest, das sieht mir nach einem nicht offiziellen aus oder?

Die Container sollten übrigens untereinander kompatibel sein, egal von welchem Maintainer.

 

Ja den Fehler "schleppe" ich schon ne weile mit mir mit. Hab aber nie rausgefunden woran das liegt? Plex funktioniert einwandfrei. Wäre aber trotzdem gut den Fehler zu finden.

Ich denke doch dass er der offizielle ist. Als Quelle steht da direkt "Plex" . Also weder Binhex's Repository, hotio's Repository noch linuxserver's Repository.

Link to comment
19 minutes ago, SidM said:

Okay, ich werde mal beobachten, wie sich das System weiter verhält und wenn jetzt nochmal das Problem auftaucht pci=noaer hinzufügen.

Ich würd dir das gleich mal ans Herz legen, trag das ein und reboote, das ist wie gesagt ein gängiger Workaround.

 

20 minutes ago, SidM said:

Ich denke doch dass er der offizielle ist.

Der offizielle funktioniert immer bzw. sollte immer funktionieren, welches Repository ist eingetragen?

Ich bin BTW kein Plex Fan, benutze hauptsächlich Emby bzw. als Notfallplan hab ich Jellyfin.

Link to comment
47 minutes ago, ich777 said:

Ich würd dir das gleich mal ans Herz legen, trag das ein und reboote, das ist wie gesagt ein gängiger Workaround.

 

Der offizielle funktioniert immer bzw. sollte immer funktionieren, welches Repository ist eingetragen?

Ich bin BTW kein Plex Fan, benutze hauptsächlich Emby bzw. als Notfallplan hab ich Jellyfin.

Wenn ich Bilder uploaden könnte, könnte ich es dir zeigen. Repository ist Plex. Wenn du in der suche Plex eingibst, ist er der 3 Container aus der dritten Reihe mit den Namen "Plex-Media-Server"

 

Der sonst oben rechts angepinnte vermerk "Offiziell" ist bei keinen Plex-Container zu sehen.

 

54 minutes ago, ich777 said:

Ich würd dir das gleich mal ans Herz legen, trag das ein und reboote, das ist wie gesagt ein gängiger Workaround.

Ok dann füge ich das noch hinzu!

Link to comment
58 minutes ago, SidM said:

Wenn ich Bilder uploaden könnte, könnte ich es dir zeigen. Repository ist Plex. Wenn du in der suche Plex eingibst, ist er der 3 Container aus der dritten Reihe mit den Namen "Plex-Media-Server"

Das passt dann schon, das mit den Uploads wird dann noch gecheckt warum das nicht funktioniert...

 

EDIT: Hab einen OFFICIAL gefunden in der CA App, heißt Plex-Media-Server und das ist das Repository:

plexinc/pms-docker

image.png.0b26b021349f5a962eb9b947547fe1d5.png

 

58 minutes ago, SidM said:

Ok dann füge ich das noch hinzu!

Bitte, würde ich auf jeden Fall empfehlen.

Kannst dann auch nochmal deine alten WDs verwenden bzw. versuchen.

Link to comment
  • 9 months later...

Hallo @SidM

Es tut mir leid, ein altes Thema zurückzubringen, und ich entschuldige mich für die schlechte Übersetzung (ich muss Google Translate verwenden), aber ich hatte ein Problem mit der NVME-Kompatibilität mit meinem Gigabyte c246m-wu4 und habe mich gefragt, welche Laufwerke Sie derzeit verwenden und Waren sie bisher in Ordnung? Ich habe 2 TB Crucual P3s und sie fallen immer wieder aus. Ich bin beim Durchstöbern des Forums auf dieses Thema gestoßen. Danke

Link to comment
  • 1 month later...
On 10/31/2023 at 4:25 PM, Ibjim said:

Hallo @SidM

Es tut mir leid, ein altes Thema zurückzubringen, und ich entschuldige mich für die schlechte Übersetzung (ich muss Google Translate verwenden), aber ich hatte ein Problem mit der NVME-Kompatibilität mit meinem Gigabyte c246m-wu4 und habe mich gefragt, welche Laufwerke Sie derzeit verwenden und Waren sie bisher in Ordnung? Ich habe 2 TB Crucual P3s und sie fallen immer wieder aus. Ich bin beim Durchstöbern des Forums auf dieses Thema gestoßen. Danke

 

Hallo lbjim,

 

Ich habe seit einer Weile 2x 2TB Samsung 980 PRO Heatsink verbaut und keinerlei Probleme bzw, Meldung damit.

 

Beste Grüße.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...