Syslog zeigt jede Menge BTRFS Error für cache Pool - Grund zur Sorge? Ursache?

jj1987 · March 4, 2021

Habe heute "einfach mal so" ins Syslog geschaut und war regelrecht erschrocken angesichts der vielen roten Einträge:

Anbei auch das vollständige Syslog.

Ich habe keine Auffälligkeiten im Betrieb, es läuft alles. Aber die Fehler beunruhigen mich schon. Wenn ich es richtig sehe scheint effektiv nur nvme0n1 das Problem zu sein, dass sich durch RAID1 dann entsprechend auch auf nvme1n1 auswirkt?!

Die Frage ist nun, was ist das Problem? Smart-Werte kann ich für diese nicht auslesen, vermutlich da Cache2?

Vielleicht einfach nur nicht richtig eingesteckt? Habe kürzlich das MoBo gewechselt. Könnte also daher rühren.

Sonst irgendwelche Ideen? Oder direkt nen RMA aufmachen?

unraid-syslog-20210304-1743.zip

vakilando · March 4, 2021

ups, das sieht mir nach einer kaputten nvme0n1 aus....

nvme1n1 ist natürlich auch betroffen, da die nun nicht mehr auf die nvme0n1 schreiben kann.

Ich würde auf jeden Fall mal eine Sicherung des Caches machen. Dann ggf. shutdown, prüfen ob sie richtig steckt und poweron und dann gucken.

jj1987 · March 4, 2021

Sicherung läuft schon. Morgen wird der PC dann nochmal auseinander genommen. Hoffentlich ist es wirklich nur eine nicht ganz eingesteckte SSD (wobei die ja am anderen Ende festgeschraubt werden, viel Spiel kann da ja eigentlich nicht sein?). Ne RMA ist immer so ne nervige Sache...

Andere Sache: wieso kommt bei sowas eigentlich keine Meldung im Webgui? Ist ja jetzt keine Lapalie. Wenn der mover läuft o.ä. kommt da ja auch ne Nachricht

Edited March 4, 2021 by jj1987

vakilando · March 4, 2021

53 minutes ago, jj1987 said:

Ne RMA ist immer so ne nervige Sache...

Wenn möglich würde ich den Server mal mit einer Live Linux Disti oder so von einem USB Stick starten und schauen ob die NVME wirklich defekt ist bevor eine RMA des Boards in Betracht gezogen wird. Kannst ja auch die Slots mal tauschen bei diesem Test.

53 minutes ago, jj1987 said:

wieso kommt bei sowas eigentlich keine Meldung im Webgui?

Das hab ich mich auch schon mal gefragt.....!!! Ich hatte mal ein ähnliches Problem weil Unraid eine meiner SSDs "totgeschrieben" hat und habe es nur per Zufall (wie du) gemerkt.

Google einfach mal (unraid massive writes).

Seitdem habe ich kein BTRFS Cache Pool (RAID1) mehr sondern nur eine einzelne (XFS)..... Mit dem Update auf die neue (jetzt freigegebene) Unraid Version werd ich es wieder probieren mit dem BTRFS RAID1 Cache Pool.

)

mgutt · March 5, 2021

Zu dem Wearout der SSD auch mal diesen Bug-Report lesen:

https://forums.unraid.net/bug-reports/stable-releases/683-unnecessary-overwriting-of-json-files-in-dockerimg-every-5-seconds-r1079/

Stellt man das docker.img um auf einen Ordner um, was ja ab Unraid 6.9 möglich ist, wird das Problem quasi nicht mehr vorhanden sein, wobei BTRFS als Copy on Write Dateisystem immer mehr schreibt als XFS.

Ich werde denke ich in Zukunft eine M.2 im Cache haben und eine zweite SATA SSD als Unassigned Disk mounten und die beiden dann zeitversetzt per rsync synchron halten. Mache ich ja aktuell schon auf die HDD so, aber da mit einem größeren zeitlichen Abstand, weil ich nicht möchte, dass durchgehend zwei HDDs laufen (Parität+Disk). Eine SATA SSD geht dagegen sehr schnell in den Tiefschlaf bzw verbraucht im Betrieb ja auch viel weniger.

jj1987 · March 5, 2021

So habe nun die Steckplätze getauscht, vorsichtshalber den Pool aufgelöst und beide SSD neu formatiert. Dann neuen Pool erstellt und die Shares wieder auf "Prefer"/"Yes" gestellt und den Mover angeschmissen.

Viele Daten für die SSD habe ich aktuell nicht (91GB), die sind jetzt aber rüber geschrieben und nicht ein Vermerk im Log. Ich hoffe das Problem ist damit behoben. Das mit dem Docker.img muss ich mir dann wohl auch nochmal angucken. Ist ja schon heftig!

Danke für die Unterstützung und ich hoffe mal, dass ich euch in diesem Thread nicht wiedersehe

jj1987 · March 5, 2021

Zu früh gefreut bzw. neues Phänomen (oder vorher nur nicht wahrgenommen?).

Server war bis gerade im S3 Sleep, habe ihn aufgeweckt und hatte die Meldung dass im Cache-Pool ein Disk fehlen würde. Komischerweise wurde Sie mir im Dashboard aber beide als aktiv angezeigt (hatte in der Eile vergessen mir die genaue Disk zu merken). im Syslog keine Auffälligkeit und in beiden Disk-Logs ebenso wenig.

Nungut also Server einmal Neugestartet. Daraufhin wurde das Array NICHT gestartet da sich die Konfiguration geändert hätte. Aber Cache Pool und Array waren so wie sie sein sollen...

Also Array manuell gestartet - und es läuft soweit.

Könnte vielleicht die SSD irgendwie den S3 Mode nicht "vertragen"?

Werde gleich mal gezielt den Server in den S3 versetzen und wieder starten. Und dann mal schauen was passiert.

Edited March 5, 2021 by jj1987

jj1987 · March 5, 2021

Tatsächlich reproduzierbar, in S3 versetzt, wieder gestartet und voila:

Interessanterweise wie bereits geschrieben erscheinen aber beide SSDs als anwesend?!

Jetzt hab ich allerdings auch wieder Fehlermeldungen, vielleicht einfach weil ich länger gewartet hab...

Werde mal das Plugin umstellen auf "herunterfahren", und gucken was dann passiert.

mgutt · March 5, 2021

Ist die SSD in einem Adapter? Verwendest du Energiesparrichtlinien wie zB durch powertop?

jj1987 · March 5, 2021

SSD ist direkt im M2 Slot vom Board, ja Powertop läuft mit autotune

/Edit: Habe vorübergehend(? - bis eine Lösung für das USB Boot Problem gefunden ist) ein anderes Board als in meiner Signatur: Asus TUF 550M Plus WiFi

Edited March 5, 2021 by jj1987
Mainboard-Tausch

mgutt · March 5, 2021

Probier mal bitte neu zu starten und ohne powertop. Durch powertop wird ja Standby by PCIe aktiviert. Eventuell hat das BIOS einen Bug und der Slot aktiviert sich nicht richtig / zu spät nach einem Sleep.

jj1987 · March 5, 2021

Gerade getestet, das hat nicht geholfen...

vakilando · March 5, 2021

@mgutt
wäre es evtl bei der Fehlersuche hilfreich den Cache mit nur einer nvme zu konfigurieren (kein btrfs RAID1) und dann zu schauen ob der Server einen s3 Sleep "überlebt"?

mgutt · March 5, 2021

Wäre auch eine Idee. Es könnte durchaus sein, dass das RAID empfindlich reagiert, weil zb eine NVMe schneller da ist als die andere?!

jj1987 · March 5, 2021

Probier ich morgen Mal aus, vielen Dank schon Mal für die Tipps

jj1987 · March 6, 2021

Ich hab "gerade" den Mover laufen, das dauert elendig lang, z.T. Übertragungsraten von nur ein paar KB/s...

Ich fürchte da ist doch mehr im Argen...

Hat jemand ne Idee wie ich die beiden NVMEs am besten mal durchtesten kann, irgendeine Live-Distro oder so?

mgutt · March 6, 2021

In den Syslogs sollte denke ich was passieren, wenn der Mover so lahm ist.

Vom Prinzip kannst du mit dd das komplette SSD RAID auslesen (wird verworfen):

dd if=/dev/nvme0n1 of=/dev/null bs=128k

nvme0n1 ersetzt du im zweiten Lauf gegen nvme1n1 um die zweite zu testen. Check mit "lsblk" wie sie genau heißen.

jj1987 · March 6, 2021

Hatte ins Syslog geschaut da stand nichts. Naja nach nur 2 1/2 Stunden für ca. 110GB war er dann auch fertig.

Der Diskspeed Docker zeigt übrigens auch keine Auffälligkeiten - bis zu 2500MB/s bie beiden SSDs

Habe jetzt den Cache Pool aufgelöst und einen neuen Pool nur mit nvme1n1 erstellt.

Was ist jetzt das geschickteste vorgehen um die Daten ab zu sichern? rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt?

Und sollte ich die nvme0n1 als zusätzlichen Pool einstellen oder als UD?

mgutt · March 6, 2021

23 minutes ago, jj1987 said:

rsync auf nvme0n1 per User Script? ich glaube du machst das bereits so oder @mgutt?

Noch nicht, wird aber denke ich so werden. Eventuell mache ich es sogar inkrementell, da ich nur eine 1TB M.2 benötige und eine 4TB SATA SSD zur Verfügung habe. Das weiß ich noch nicht. Aktuell sichere ich alle paar Stunden inkrementell auf eine HDD im Array.

jj1987 · March 7, 2021

So gerade das erste Mal aus dem S3 "erwacht" nachdem ich auf eine einzelne Cache DIsk gewechselt bin. nvme1n1 als Cache ist da. nvme0n1 als UD nicht!

Taucht auch nicht unter System Devices auf...

Die scheint also irgendwie nicht richtig / rechtzeitig aufgeweckt zu werden. Kann man das irgendwie manuell nochmal anstoßen?

Auf S3 würde ich nur ungern verzichten, dafür benötige ich den Server dann doch zu wenig, als dass der 24/7 laufen sollte. Notlösung wäre noch statt S3 ein kompletter shutdown, aber Unraid braucht ja dann gut und gerne 2 Minuten um "Empfangsbereit" zu sein.

Werde die kommende Woche testweise nochmal wieder das ASRock Board einbauen und da nochmal testen, da sind mir diese Fehler nie aufgefallen. Dafür konnte ich dort halt nicht Shutdown/Restart nutzen, weil er dann im POST Screen mit "B4" (USB Hot Plug Fehler) hängenbleibt. Leider hat isch der Support von ASRock dazu noch nicht wieder gemeldet...

Echt ne gute Quote an Boards die nicht (so wie sie sollen) funktionieren...

mgutt · March 7, 2021

50 minutes ago, jj1987 said:

Kann man das irgendwie manuell nochmal anstoßen?

Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf.

Mach auch mal vor und nach dem S3 das:

lspci

Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen?

Wenn nein, könntest du das probieren um noch mal alle PCI Geräte zu scannen:

echo 1 > /sys/bus/pci/rescan

jj1987 · March 7, 2021

9 minutes ago, mgutt said:

Ist powertune aktiv? Falls ja, solltest du es ohne versuchen. powertune erlaubt allen PCIe Geräten den Slot in den Standby zu schicken und evtl wacht der nach dem S3 dann nicht mehr auf.

Powertop war aus - hatte ich heute nach dem "missglückten" S3 erst wieder angeschaltet, da offensichtlich nicht ursächlich für das Problem.

10 minutes ago, mgutt said:
Mach auch mal vor und nach dem S3 das:
lspci 
Ist die M.2 nach dem S3 noch als PCI Gerät zu sehen?

Interessanterweise taucht sie da auf - was mich dazu verleitete, dann nochmal in System Devices zu gucken. Unter den PCI geräten ist die zweite nvme gelistet, unter den SCSI Geräten nicht.

Und noch ein Kuriosum: Im Dashboard bei den UDs wird die nvme auch immer noch angezeigt

mgutt · March 7, 2021

Gibt das die beiden NVMe aus?

cat /sys/class/scsi_host/host*/nvme_info

Die Idee wäre bei der fehlenden NVMe dann entsprechend der host id das auszuführen:

echo "- - -" > /sys/class/scsi_host/hostX/scan

Von hier:

https://geekpeek.net/rescan-scsi-bus-on-linux-system/

jj1987 · March 7, 2021

Also da kommt bei mir als Antwort nur "no such file or directory"

jj1987 · March 7, 2021

Hmm Dr. Google hatte noch "scsitools" empfohlen für den rescan, schienen auch tatsächlich in Unraid integriert zu sein.

Allerdings spuckt das gar keine nvme aus:

rescan-scsi-bus --forcerescan
Host adapter 0 (usb-storage) found.
Host adapter 1 (usb-storage) found.
Host adapter 2 (ahci) found.
Host adapter 3 (ahci) found.
Host adapter 4 (ahci) found.
Host adapter 5 (ahci) found.
Host adapter 6 (ahci) found.
Host adapter 7 (ahci) found.
Syncing file systems
Scanning SCSI subsystem for new devices
 and remove devices that have disappeared
Scanning host 0 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 0 0 0 0 ...
OLD: Host: scsi0 Channel: 00 Id: 00 Lun: 00
      Vendor: Seagate  Model: Expansion+       Rev: 9300
      Type:   Direct-Access                    ANSI SCSI revision: 06
Scanning host 1 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 1 0 0 0 ...
OLD: Host: scsi1 Channel: 00 Id: 00 Lun: 00
      Vendor: SanDisk' Model: Cruzer Fit       Rev: 1.00
      Type:   Direct-Access                    ANSI SCSI revision: 06
Scanning host 2 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 2 0 0 0 ...
OLD: Host: scsi2 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 3 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 3 0 0 0 ...
OLD: Host: scsi3 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 4 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
 Scanning for device 4 0 0 0 ...
OLD: Host: scsi4 Channel: 00 Id: 00 Lun: 00
      Vendor: ATA      Model: WDC WD80EZAZ-11T Rev: 0A83
      Type:   Direct-Access                    ANSI SCSI revision: 05
Scanning host 5 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
Scanning host 6 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
Scanning host 7 for  SCSI target IDs  0 1 2 3 4 5 6 7, all LUNs
0 new device(s) found.
0 device(s) removed.

Syslog zeigt jede Menge BTRFS Error für cache Pool - Grund zur Sorge? Ursache?

Recommended Posts

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Join the conversation