Syslog zeigt jede Menge BTRFS Error für cache Pool - Grund zur Sorge? Ursache?


jj1987

Recommended Posts

Habe heute "einfach mal so" ins Syslog geschaut und war regelrecht erschrocken angesichts der vielen roten Einträge:

 

image.thumb.png.f13b63cad1c20dde7a08fb184edaf8aa.png

Anbei auch das vollständige Syslog.

 

Ich habe keine Auffälligkeiten im Betrieb, es läuft alles. Aber die Fehler beunruhigen mich schon. Wenn ich es richtig sehe scheint effektiv nur nvme0n1 das Problem zu sein, dass sich durch RAID1 dann entsprechend auch auf nvme1n1 auswirkt?!

Die Frage ist nun, was ist das Problem? Smart-Werte kann ich für diese nicht auslesen, vermutlich da Cache2?

Vielleicht einfach nur nicht richtig eingesteckt? Habe kürzlich das MoBo gewechselt. Könnte also daher rühren.

Sonst irgendwelche Ideen? Oder direkt nen RMA aufmachen?

unraid-syslog-20210304-1743.zip

Link to comment

ups, das sieht mir nach einer kaputten nvme0n1 aus....

nvme1n1 ist natürlich auch betroffen, da die nun nicht mehr auf die nvme0n1 schreiben kann.

Ich würde auf jeden Fall mal eine Sicherung des Caches machen. Dann ggf. shutdown, prüfen ob sie richtig steckt und poweron und dann gucken.

Link to comment

Sicherung läuft schon. Morgen wird der PC dann nochmal auseinander genommen. Hoffentlich ist es wirklich nur eine nicht ganz eingesteckte SSD (wobei die ja am anderen Ende festgeschraubt werden, viel Spiel kann da ja eigentlich nicht sein?). Ne RMA ist immer so ne nervige Sache...

 

Andere Sache: wieso kommt bei sowas eigentlich keine Meldung im Webgui? Ist ja jetzt keine Lapalie. Wenn der mover läuft o.ä. kommt da ja auch ne Nachricht

Edited by jj1987
Link to comment
53 minutes ago, jj1987 said:

Ne RMA ist immer so ne nervige Sache...

Wenn möglich würde ich den Server mal mit einer Live Linux Disti oder so von einem USB Stick starten und schauen ob die NVME wirklich defekt ist bevor eine RMA des Boards in Betracht gezogen wird. Kannst ja auch die Slots mal tauschen bei diesem Test.

 

53 minutes ago, jj1987 said:

wieso kommt bei sowas eigentlich keine Meldung im Webgui?

Das hab ich mich auch schon mal gefragt.....!!! Ich hatte mal ein ähnliches Problem weil Unraid eine meiner SSDs "totgeschrieben" hat und habe es nur per Zufall (wie du) gemerkt.

Google einfach mal  (unraid massive writes).

Seitdem habe ich kein BTRFS Cache Pool (RAID1) mehr sondern nur eine einzelne (XFS)..... Mit dem Update auf die neue (jetzt freigegebene) Unraid Version werd ich es wieder probieren mit dem BTRFS RAID1 Cache Pool.

)

Link to comment

Zu dem Wearout der SSD auch mal diesen Bug-Report lesen:

https://forums.unraid.net/bug-reports/stable-releases/683-unnecessary-overwriting-of-json-files-in-dockerimg-every-5-seconds-r1079/

 

Stellt man das docker.img um auf einen Ordner um, was ja ab Unraid 6.9 möglich ist, wird das Problem quasi nicht mehr vorhanden sein, wobei BTRFS als Copy on Write Dateisystem immer mehr schreibt als XFS.

 

Ich werde denke ich in Zukunft eine M.2 im Cache haben und eine zweite SATA SSD als Unassigned Disk mounten und die beiden dann zeitversetzt per rsync synchron halten. Mache ich ja aktuell schon auf die HDD so, aber da mit einem größeren zeitlichen Abstand, weil ich nicht möchte, dass durchgehend zwei HDDs laufen (Parität+Disk). Eine SATA SSD geht dagegen sehr schnell in den Tiefschlaf bzw verbraucht im Betrieb ja auch viel weniger.

 

  • Like 1
Link to comment

So habe nun die Steckplätze getauscht, vorsichtshalber den Pool aufgelöst und beide SSD neu formatiert. Dann neuen Pool erstellt und die Shares wieder auf "Prefer"/"Yes" gestellt und den Mover angeschmissen.

Viele Daten für die SSD habe ich aktuell nicht (91GB), die sind jetzt aber rüber geschrieben und nicht ein Vermerk im Log. Ich hoffe das Problem ist damit behoben. Das mit dem Docker.img muss ich mir dann wohl auch nochmal angucken. Ist ja schon heftig!

Danke für die Unterstützung und ich hoffe mal, dass ich euch in diesem Thread nicht wiedersehe ;-)

Link to comment

Zu früh gefreut bzw. neues Phänomen (oder vorher nur nicht wahrgenommen?).

Server war bis gerade im S3 Sleep, habe ihn aufgeweckt und hatte die Meldung dass im Cache-Pool ein Disk fehlen würde. Komischerweise wurde Sie mir im Dashboard aber beide als aktiv angezeigt (hatte in der Eile vergessen mir die genaue Disk zu merken). im Syslog keine Auffälligkeit und in beiden Disk-Logs ebenso wenig.

Nungut also Server einmal Neugestartet. Daraufhin wurde das Array NICHT gestartet da sich die Konfiguration geändert hätte. Aber Cache Pool und Array waren so wie sie sein sollen...

Also Array manuell gestartet - und es läuft soweit.

Könnte vielleicht die SSD irgendwie den S3 Mode nicht "vertragen"?

 

Werde gleich mal gezielt den Server in den S3 versetzen und wieder starten. Und dann mal schauen was passiert.

Edited by jj1987
Link to comment

Tatsächlich reproduzierbar, in S3 versetzt, wieder gestartet und voila:

 

1689772910_Pooldevices.thumb.png.20c16fe15f8a1e1989e2e3076e4c9d62.png

Interessanterweise wie bereits geschrieben erscheinen aber beide SSDs als anwesend?!

Jetzt hab ich allerdings auch wieder Fehlermeldungen, vielleicht einfach weil ich länger gewartet hab...

 

Werde mal das Plugin umstellen auf "herunterfahren", und gucken was dann passiert.

 

Link to comment

SSD ist direkt im M2 Slot vom Board, ja Powertop läuft mit autotune

 

/Edit: Habe vorübergehend(? - bis eine Lösung für das USB Boot Problem gefunden ist) ein anderes Board als in meiner Signatur: Asus TUF 550M Plus WiFi

Edited by jj1987
Mainboard-Tausch
Link to comment

In den Syslogs sollte denke ich was passieren, wenn der Mover so lahm ist.

 

Vom Prinzip kannst du mit dd das komplette SSD RAID auslesen (wird verworfen):

dd if=/dev/nvme0n1 of=/dev/null bs=128k

 

nvme0n1 ersetzt du im zweiten Lauf gegen nvme1n1 um die zweite zu testen. Check mit "lsblk" wie sie genau heißen.

Link to comment

Hatte ins Syslog geschaut da stand nichts. Naja nach nur 2 1/2 Stunden für ca. 110GB war er dann auch fertig.

Der Diskspeed Docker zeigt übrigens auch keine Auffälligkeiten - bis zu 2500MB/s bie beiden SSDs

Habe jetzt den Cache Pool aufgelöst und einen neuen Pool nur mit nvme1n1 erstellt.

Was ist jetzt das geschickteste vorgehen um die Daten ab zu sichern? rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt?

Und sollte ich die nvme0n1 als zusätzlichen Pool einstellen oder als UD?

Link to comment
23 minutes ago, jj1987 said:

rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt?

Noch nicht, wird aber denke ich so werden. Eventuell mache ich es sogar inkrementell, da ich nur eine 1TB M.2 benötige und eine 4TB SATA SSD zur Verfügung habe. Das weiß ich noch nicht. Aktuell sichere ich alle paar Stunden inkrementell auf eine HDD im Array.

Link to comment

So gerade das erste Mal aus dem S3 "erwacht" nachdem ich auf eine einzelne Cache DIsk gewechselt bin. nvme1n1 als Cache ist da. nvme0n1 als UD nicht!

Taucht auch nicht unter System Devices auf...

Die scheint also irgendwie nicht richtig / rechtzeitig aufgeweckt zu werden. Kann man das irgendwie manuell nochmal anstoßen?

Auf S3 würde ich nur ungern verzichten, dafür benötige ich den Server dann doch zu wenig, als dass der 24/7 laufen sollte. Notlösung wäre noch statt S3 ein kompletter shutdown, aber Unraid braucht ja dann gut und gerne 2 Minuten um "Empfangsbereit" zu sein.

Werde die kommende Woche testweise nochmal wieder das ASRock Board einbauen und da nochmal testen, da sind mir diese Fehler nie aufgefallen. Dafür konnte ich dort halt nicht Shutdown/Restart nutzen, weil er dann im POST Screen mit "B4" (USB Hot Plug Fehler) hängenbleibt. Leider hat isch der Support von ASRock dazu noch nicht wieder gemeldet...

Echt ne gute Quote an Boards die nicht (so wie sie sollen) funktionieren...

Link to comment
50 minutes ago, jj1987 said:

Kann man das irgendwie manuell nochmal anstoßen?

Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf.

 

Mach auch mal vor und nach dem S3 das:

lspci 

 

Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen?

 

Wenn nein, könntest du das probieren um noch mal alle PCI Geräte zu scannen:

echo 1 > /sys/bus/pci/rescan

 

Link to comment
9 minutes ago, mgutt said:

Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf.

Powertop war aus - hatte ich heute nach dem "missglückten" S3 erst wieder angeschaltet, da offensichtlich nicht ursächlich für das Problem.

10 minutes ago, mgutt said:

Mach auch mal vor und nach dem S3 das:


lspci 

 

Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen?

 

Interessanterweise taucht sie da auf - was mich dazu verleitete, dann nochmal in System Devices zu gucken. Unter den PCI geräten ist die zweite nvme gelistet, unter den SCSI Geräten nicht.

Und noch ein Kuriosum: Im Dashboard bei den UDs wird die nvme auch immer noch angezeigt

Link to comment

Hmm Dr. Google hatte noch "scsitools" empfohlen für den rescan, schienen auch tatsächlich in Unraid integriert zu sein.

Allerdings spuckt das gar keine nvme aus:

rescan-scsi-bus --forcerescan
Host adapter 0 (usb-storage) found.
Host adapter 1 (usb-storage) found.
Host adapter 2 (ahci) found.
Host adapter 3 (ahci) found.
Host adapter 4 (ahci) found.
Host adapter 5 (ahci) found.
Host adapter 6 (ahci) found.
Host adapter 7 (ahci) found.
Syncing file systems
Scanning SCSI subsystem for new devices
 and remove devices that have disappeared
Scanning host 0 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 0 0 0 0 ...
OLD: Host: scsi0 Channel: 00 Id: 00 Lun: 00
      Vendor: Seagate  Model: Expansion+       Rev: 9300
      Type:   Direct-Access                    ANSI SCSI revision: 06
Scanning host 1 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 1 0 0 0 ...
OLD: Host: scsi1 Channel: 00 Id: 00 Lun: 00
      Vendor: SanDisk' Model: Cruzer Fit       Rev: 1.00
      Type:   Direct-Access                    ANSI SCSI revision: 06
Scanning host 2 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 2 0 0 0 ...
OLD: Host: scsi2 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 3 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 3 0 0 0 ...
OLD: Host: scsi3 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 4 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 4 0 0 0 ...
OLD: Host: scsi4 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 5 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
Scanning host 6 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
Scanning host 7 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
0 new device(s) found.
0 device(s) removed.

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.