jj1987 Posted March 4, 2021 Share Posted March 4, 2021 Habe heute "einfach mal so" ins Syslog geschaut und war regelrecht erschrocken angesichts der vielen roten Einträge: Anbei auch das vollständige Syslog. Ich habe keine Auffälligkeiten im Betrieb, es läuft alles. Aber die Fehler beunruhigen mich schon. Wenn ich es richtig sehe scheint effektiv nur nvme0n1 das Problem zu sein, dass sich durch RAID1 dann entsprechend auch auf nvme1n1 auswirkt?! Die Frage ist nun, was ist das Problem? Smart-Werte kann ich für diese nicht auslesen, vermutlich da Cache2? Vielleicht einfach nur nicht richtig eingesteckt? Habe kürzlich das MoBo gewechselt. Könnte also daher rühren. Sonst irgendwelche Ideen? Oder direkt nen RMA aufmachen? unraid-syslog-20210304-1743.zip Quote Link to comment
vakilando Posted March 4, 2021 Share Posted March 4, 2021 ups, das sieht mir nach einer kaputten nvme0n1 aus.... nvme1n1 ist natürlich auch betroffen, da die nun nicht mehr auf die nvme0n1 schreiben kann. Ich würde auf jeden Fall mal eine Sicherung des Caches machen. Dann ggf. shutdown, prüfen ob sie richtig steckt und poweron und dann gucken. Quote Link to comment
jj1987 Posted March 4, 2021 Author Share Posted March 4, 2021 (edited) Sicherung läuft schon. Morgen wird der PC dann nochmal auseinander genommen. Hoffentlich ist es wirklich nur eine nicht ganz eingesteckte SSD (wobei die ja am anderen Ende festgeschraubt werden, viel Spiel kann da ja eigentlich nicht sein?). Ne RMA ist immer so ne nervige Sache... Andere Sache: wieso kommt bei sowas eigentlich keine Meldung im Webgui? Ist ja jetzt keine Lapalie. Wenn der mover läuft o.ä. kommt da ja auch ne Nachricht Edited March 4, 2021 by jj1987 Quote Link to comment
vakilando Posted March 4, 2021 Share Posted March 4, 2021 53 minutes ago, jj1987 said: Ne RMA ist immer so ne nervige Sache... Wenn möglich würde ich den Server mal mit einer Live Linux Disti oder so von einem USB Stick starten und schauen ob die NVME wirklich defekt ist bevor eine RMA des Boards in Betracht gezogen wird. Kannst ja auch die Slots mal tauschen bei diesem Test. 53 minutes ago, jj1987 said: wieso kommt bei sowas eigentlich keine Meldung im Webgui? Das hab ich mich auch schon mal gefragt.....!!! Ich hatte mal ein ähnliches Problem weil Unraid eine meiner SSDs "totgeschrieben" hat und habe es nur per Zufall (wie du) gemerkt. Google einfach mal (unraid massive writes). Seitdem habe ich kein BTRFS Cache Pool (RAID1) mehr sondern nur eine einzelne (XFS)..... Mit dem Update auf die neue (jetzt freigegebene) Unraid Version werd ich es wieder probieren mit dem BTRFS RAID1 Cache Pool. ) Quote Link to comment
mgutt Posted March 5, 2021 Share Posted March 5, 2021 Zu dem Wearout der SSD auch mal diesen Bug-Report lesen: https://forums.unraid.net/bug-reports/stable-releases/683-unnecessary-overwriting-of-json-files-in-dockerimg-every-5-seconds-r1079/ Stellt man das docker.img um auf einen Ordner um, was ja ab Unraid 6.9 möglich ist, wird das Problem quasi nicht mehr vorhanden sein, wobei BTRFS als Copy on Write Dateisystem immer mehr schreibt als XFS. Ich werde denke ich in Zukunft eine M.2 im Cache haben und eine zweite SATA SSD als Unassigned Disk mounten und die beiden dann zeitversetzt per rsync synchron halten. Mache ich ja aktuell schon auf die HDD so, aber da mit einem größeren zeitlichen Abstand, weil ich nicht möchte, dass durchgehend zwei HDDs laufen (Parität+Disk). Eine SATA SSD geht dagegen sehr schnell in den Tiefschlaf bzw verbraucht im Betrieb ja auch viel weniger. 1 Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 So habe nun die Steckplätze getauscht, vorsichtshalber den Pool aufgelöst und beide SSD neu formatiert. Dann neuen Pool erstellt und die Shares wieder auf "Prefer"/"Yes" gestellt und den Mover angeschmissen. Viele Daten für die SSD habe ich aktuell nicht (91GB), die sind jetzt aber rüber geschrieben und nicht ein Vermerk im Log. Ich hoffe das Problem ist damit behoben. Das mit dem Docker.img muss ich mir dann wohl auch nochmal angucken. Ist ja schon heftig! Danke für die Unterstützung und ich hoffe mal, dass ich euch in diesem Thread nicht wiedersehe Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 (edited) Zu früh gefreut bzw. neues Phänomen (oder vorher nur nicht wahrgenommen?). Server war bis gerade im S3 Sleep, habe ihn aufgeweckt und hatte die Meldung dass im Cache-Pool ein Disk fehlen würde. Komischerweise wurde Sie mir im Dashboard aber beide als aktiv angezeigt (hatte in der Eile vergessen mir die genaue Disk zu merken). im Syslog keine Auffälligkeit und in beiden Disk-Logs ebenso wenig. Nungut also Server einmal Neugestartet. Daraufhin wurde das Array NICHT gestartet da sich die Konfiguration geändert hätte. Aber Cache Pool und Array waren so wie sie sein sollen... Also Array manuell gestartet - und es läuft soweit. Könnte vielleicht die SSD irgendwie den S3 Mode nicht "vertragen"? Werde gleich mal gezielt den Server in den S3 versetzen und wieder starten. Und dann mal schauen was passiert. Edited March 5, 2021 by jj1987 Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 Tatsächlich reproduzierbar, in S3 versetzt, wieder gestartet und voila: Interessanterweise wie bereits geschrieben erscheinen aber beide SSDs als anwesend?! Jetzt hab ich allerdings auch wieder Fehlermeldungen, vielleicht einfach weil ich länger gewartet hab... Werde mal das Plugin umstellen auf "herunterfahren", und gucken was dann passiert. Quote Link to comment
mgutt Posted March 5, 2021 Share Posted March 5, 2021 Ist die SSD in einem Adapter? Verwendest du Energiesparrichtlinien wie zB durch powertop? Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 (edited) SSD ist direkt im M2 Slot vom Board, ja Powertop läuft mit autotune /Edit: Habe vorübergehend(? - bis eine Lösung für das USB Boot Problem gefunden ist) ein anderes Board als in meiner Signatur: Asus TUF 550M Plus WiFi Edited March 5, 2021 by jj1987 Mainboard-Tausch Quote Link to comment
mgutt Posted March 5, 2021 Share Posted March 5, 2021 Probier mal bitte neu zu starten und ohne powertop. Durch powertop wird ja Standby by PCIe aktiviert. Eventuell hat das BIOS einen Bug und der Slot aktiviert sich nicht richtig / zu spät nach einem Sleep. Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 Gerade getestet, das hat nicht geholfen... Quote Link to comment
vakilando Posted March 5, 2021 Share Posted March 5, 2021 @mgutt wäre es evtl bei der Fehlersuche hilfreich den Cache mit nur einer nvme zu konfigurieren (kein btrfs RAID1) und dann zu schauen ob der Server einen s3 Sleep "überlebt"? Quote Link to comment
mgutt Posted March 5, 2021 Share Posted March 5, 2021 Wäre auch eine Idee. Es könnte durchaus sein, dass das RAID empfindlich reagiert, weil zb eine NVMe schneller da ist als die andere?! Quote Link to comment
jj1987 Posted March 5, 2021 Author Share Posted March 5, 2021 Probier ich morgen Mal aus, vielen Dank schon Mal für die Tipps Quote Link to comment
jj1987 Posted March 6, 2021 Author Share Posted March 6, 2021 Ich hab "gerade" den Mover laufen, das dauert elendig lang, z.T. Übertragungsraten von nur ein paar KB/s... Ich fürchte da ist doch mehr im Argen... Hat jemand ne Idee wie ich die beiden NVMEs am besten mal durchtesten kann, irgendeine Live-Distro oder so? Quote Link to comment
mgutt Posted March 6, 2021 Share Posted March 6, 2021 In den Syslogs sollte denke ich was passieren, wenn der Mover so lahm ist. Vom Prinzip kannst du mit dd das komplette SSD RAID auslesen (wird verworfen): dd if=/dev/nvme0n1 of=/dev/null bs=128k nvme0n1 ersetzt du im zweiten Lauf gegen nvme1n1 um die zweite zu testen. Check mit "lsblk" wie sie genau heißen. Quote Link to comment
jj1987 Posted March 6, 2021 Author Share Posted March 6, 2021 Hatte ins Syslog geschaut da stand nichts. Naja nach nur 2 1/2 Stunden für ca. 110GB war er dann auch fertig. Der Diskspeed Docker zeigt übrigens auch keine Auffälligkeiten - bis zu 2500MB/s bie beiden SSDs Habe jetzt den Cache Pool aufgelöst und einen neuen Pool nur mit nvme1n1 erstellt. Was ist jetzt das geschickteste vorgehen um die Daten ab zu sichern? rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt? Und sollte ich die nvme0n1 als zusätzlichen Pool einstellen oder als UD? Quote Link to comment
mgutt Posted March 6, 2021 Share Posted March 6, 2021 23 minutes ago, jj1987 said: rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt? Noch nicht, wird aber denke ich so werden. Eventuell mache ich es sogar inkrementell, da ich nur eine 1TB M.2 benötige und eine 4TB SATA SSD zur Verfügung habe. Das weiß ich noch nicht. Aktuell sichere ich alle paar Stunden inkrementell auf eine HDD im Array. Quote Link to comment
jj1987 Posted March 7, 2021 Author Share Posted March 7, 2021 So gerade das erste Mal aus dem S3 "erwacht" nachdem ich auf eine einzelne Cache DIsk gewechselt bin. nvme1n1 als Cache ist da. nvme0n1 als UD nicht! Taucht auch nicht unter System Devices auf... Die scheint also irgendwie nicht richtig / rechtzeitig aufgeweckt zu werden. Kann man das irgendwie manuell nochmal anstoßen? Auf S3 würde ich nur ungern verzichten, dafür benötige ich den Server dann doch zu wenig, als dass der 24/7 laufen sollte. Notlösung wäre noch statt S3 ein kompletter shutdown, aber Unraid braucht ja dann gut und gerne 2 Minuten um "Empfangsbereit" zu sein. Werde die kommende Woche testweise nochmal wieder das ASRock Board einbauen und da nochmal testen, da sind mir diese Fehler nie aufgefallen. Dafür konnte ich dort halt nicht Shutdown/Restart nutzen, weil er dann im POST Screen mit "B4" (USB Hot Plug Fehler) hängenbleibt. Leider hat isch der Support von ASRock dazu noch nicht wieder gemeldet... Echt ne gute Quote an Boards die nicht (so wie sie sollen) funktionieren... Quote Link to comment
mgutt Posted March 7, 2021 Share Posted March 7, 2021 50 minutes ago, jj1987 said: Kann man das irgendwie manuell nochmal anstoßen? Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf. Mach auch mal vor und nach dem S3 das: lspci Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen? Wenn nein, könntest du das probieren um noch mal alle PCI Geräte zu scannen: echo 1 > /sys/bus/pci/rescan Quote Link to comment
jj1987 Posted March 7, 2021 Author Share Posted March 7, 2021 9 minutes ago, mgutt said: Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf. Powertop war aus - hatte ich heute nach dem "missglückten" S3 erst wieder angeschaltet, da offensichtlich nicht ursächlich für das Problem. 10 minutes ago, mgutt said: Mach auch mal vor und nach dem S3 das: lspci Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen? Interessanterweise taucht sie da auf - was mich dazu verleitete, dann nochmal in System Devices zu gucken. Unter den PCI geräten ist die zweite nvme gelistet, unter den SCSI Geräten nicht. Und noch ein Kuriosum: Im Dashboard bei den UDs wird die nvme auch immer noch angezeigt Quote Link to comment
mgutt Posted March 7, 2021 Share Posted March 7, 2021 Gibt das die beiden NVMe aus? cat /sys/class/scsi_host/host*/nvme_info Die Idee wäre bei der fehlenden NVMe dann entsprechend der host id das auszuführen: echo "- - -" > /sys/class/scsi_host/hostX/scan Von hier: https://geekpeek.net/rescan-scsi-bus-on-linux-system/ Quote Link to comment
jj1987 Posted March 7, 2021 Author Share Posted March 7, 2021 Also da kommt bei mir als Antwort nur "no such file or directory" Quote Link to comment
jj1987 Posted March 7, 2021 Author Share Posted March 7, 2021 Hmm Dr. Google hatte noch "scsitools" empfohlen für den rescan, schienen auch tatsächlich in Unraid integriert zu sein. Allerdings spuckt das gar keine nvme aus: rescan-scsi-bus --forcerescan Host adapter 0 (usb-storage) found. Host adapter 1 (usb-storage) found. Host adapter 2 (ahci) found. Host adapter 3 (ahci) found. Host adapter 4 (ahci) found. Host adapter 5 (ahci) found. Host adapter 6 (ahci) found. Host adapter 7 (ahci) found. Syncing file systems Scanning SCSI subsystem for new devices and remove devices that have disappeared Scanning host 0 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning for device 0 0 0 0 ... OLD: Host: scsi0 Channel: 00 Id: 00 Lun: 00 Vendor: Seagate Model: Expansion+ Rev: 9300 Type: Direct-Access ANSI SCSI revision: 06 Scanning host 1 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning for device 1 0 0 0 ... OLD: Host: scsi1 Channel: 00 Id: 00 Lun: 00 Vendor: SanDisk' Model: Cruzer Fit Rev: 1.00 Type: Direct-Access ANSI SCSI revision: 06 Scanning host 2 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning for device 2 0 0 0 ... OLD: Host: scsi2 Channel: 00 Id: 00 Lun: 00 Vendor: ATA Model: WDC WD80EZAZ-11T Rev: 0A83 Type: Direct-Access ANSI SCSI revision: 05 Scanning host 3 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning for device 3 0 0 0 ... OLD: Host: scsi3 Channel: 00 Id: 00 Lun: 00 Vendor: ATA Model: WDC WD80EZAZ-11T Rev: 0A83 Type: Direct-Access ANSI SCSI revision: 05 Scanning host 4 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning for device 4 0 0 0 ... OLD: Host: scsi4 Channel: 00 Id: 00 Lun: 00 Vendor: ATA Model: WDC WD80EZAZ-11T Rev: 0A83 Type: Direct-Access ANSI SCSI revision: 05 Scanning host 5 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning host 6 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs Scanning host 7 for SCSI target IDs 0 1 2 3 4 5 6 7, all LUNs 0 new device(s) found. 0 device(s) removed. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.