Jump to content

Immer wieder Probleme mit Cache Disk & nun auch mit einer weiter Disk


Recommended Posts

Guten Tag zusammen

 

Vor einiger Zeit hatte ich schon einmal einen Post abgesetzt, bei welchem ich Probleme mit einer Festplatte hatte. Damals war tatsächlich die Lösung, die eigentlich neue Disk auszutauschen. Nun tritt immer wieder ein ähnliches Problem auf, allerdings bei der Cache Disk. Die dort eingesetzte Samsung SSD verhält sich wie eine Zeitbombe! Nach einigen Tagen/Wochen treten BTRFS Errors auf und die Docker können nicht mehr auf ihre Libary zugreifen da diese auf dem Cache liegt. Mir bleibt dann nichts anderes übrig, als die Shares vom Cache zu nehmen mit dem Mover, das Array zu stoppen und die Cache Disk zu entfernen (bzw nicht mehr auszuwählen). Mehrfaches formatieren und auch das ersetzen der Disk haben keine Erfolg gebracht.

 

Seit einigen Tagen tritt immer wieder folgende Meldung auf: 

Quote

ata2.00: Emask 0x50 SAct 0x80 SErr 0x4090800 action 0xe frozen

Bei ata2.00 handelt es sich um die Parity Disk. Ich hatte bereits schonmal den selben Fehler bei einer anderen Disk (wie Eingangs erwähnt) dort wurde ebenfalls wie hier im Vorfeld versucht von Unraid den Link Speed anzupassen (Diagnostic hänge ich an). Meine Vermutung ist das der SATA Controller auf dem Board ein Problem hat, das könnte ggf auch die Probleme mit der Cache Disk erklären. Ich habe mir eine LSI Karte besorgt und könnte diese in das System einbauen und schauen ob sich etwas ändert. Gibt es vorher noch andere Varianten um die Fehler weiter einzugrenzen oder ggf zu beheben ??

Vielen Dank für die Hilfe

tardis-syslog-20240703-1631.zip tardis-diagnostics-20240703-1630.zip

Link to comment
33 minutes ago, Torben_TSL said:

Nach einigen Tagen/Wochen treten BTRFS Errors auf

 

Tjaaaa,  ich würde mal überlegen ob es nicht Sinn machen könnte sich von btrfs zu verabschieden.

 

 

33 minutes ago, Torben_TSL said:

Mir bleibt dann nichts anderes übrig, als die Shares vom Cache zu nehmen mit dem Mover, das Array zu stoppen und die Cache Disk zu entfernen (bzw nicht mehr auszuwählen). Mehrfaches formatieren und auch das ersetzen der Disk haben keine Erfolg gebracht.

 

Hast Du mal überlegt Einzeldisks mit xfs zu benutzen? Das geht auch bei Disks im Pool.

 

Bei der vermutung zu dem SATA Onboard Ports, möglich ist es, aber eher unwhrscheinlich. Zu testzwecken kannst Du ja mal den SAS Kontroller einbauen, aber ich würde eher zu einem SATA Kontroller greifen.

Link to comment

Das mit dem andern File-System ist ein guter Tipp, war mir nicht bewusst das das geht. Habe ich jetzt angepasst.

 

Den SAS Kontroller werde ich am Wochenende einbauen und testweise eine oder zwei Disk dort anschließen. Kann man sonst noch etwas testen ?

Link to comment

Seit dem ich das Array neu gestartet habe, tauch folgendes im Log auf

Quote

Jul  4 17:13:09 Tardis kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul  4 17:13:09 Tardis kernel: ata2.00: cmd 60/e0:a0:20:28:36/01:00:89:00:00/40 tag 20 ncq dma 245760 in
Jul  4 17:13:09 Tardis kernel:         res 40/00:00:40:38:0b/00:00:00:02:00/40 Emask 0x50 (ATA bus error)
Jul  4 17:13:09 Tardis kernel: ata2.00: status: { DRDY }
Jul  4 17:13:09 Tardis kernel: ata2: hard resetting link
Jul  4 17:13:14 Tardis kernel: ata2: link is slow to respond, please be patient (ready=0)
Jul  4 17:13:19 Tardis kernel: ata2: COMRESET failed (errno=-16)
Jul  4 17:13:19 Tardis kernel: ata2: hard resetting link
Jul  4 17:13:20 Tardis kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jul  4 17:13:21 Tardis kernel: ata2.00: configured for UDMA/33
Jul  4 17:13:21 Tardis kernel: ata2: EH complete

 

Link to comment
4 hours ago, Torben_TSL said:

Seit dem ich das Array neu gestartet habe, tauch folgendes im Log auf

 

Ich weiß nicht was es genau ist und woher es kommt, aber es klingt mir nach Problemen mit einer der Festplatten (oder zumindest SATA Geräten).

Das kann (und wird wahrscheinlich auch) mit Deinen oben beschriebenen Disk Problemen zusammen hängen.

 

- "DMA" ist eine Übertragungsart um eben Daten direkt in den RAM Speicher zu schreiben/lesen.

- "ATA Bus" deutet sehr stark auf eben PATA (seeehr alt) oder SATA hin.

- "DRDY" ist Diskready und betrifft eben Festplatten/SSDs.

- "hard reset link" ist der Hinweis, daß die Probleme überhand genommen haben und entschieden wurde den Link (Verbindung) zwischen Kontroller (vermutlich eben SATA Kontroller/Port und Datenträger zu resetten und alle vorherigen Annahmen zu verwerfen. So werden Verbindungsgeschwindigkeiten neu ausgehandelt unnder der Prämisse, daß die vorherigen Einstellungen ungeeignet sind.

- "link is slow..." ist eine Meldung, daß die Neuaushandlung der Verbindungsparameter/-geschwindigkeit länger als sonst üblich dauert (Festplatte ist mutmaßlich mit internen Fehlerbehebungen beschäftigt und reagiert deshalb langsamer)

- bei dem zweiten "hard reset..." hat dann die Festplatte zumindest schnell genug geantwortet um einer 1,5GBit/s Verbindung (150MByte/s) = SATA-1  herzustellen, was das Minimum ist um eine SATA Verbindung aufzubauen.

....

 

Somit kann unraid zumindest irgendwie mit der Festplatte kommunizieren, aber wenn es nicht gerade eine uuuuuralte SATA-1 Festplatte ist, gehe ich eher davon aus, daß die Festplatte oder die Verkabelung dahin zwischen "sehr schlecht" oder "schon fast dem Tode geweiht" ist.

 

Ich würde versuchen herauszufinden welche Festplatte es ist und spätestenns jetzt die Daten backuppen.

Dann SATA Datenverkabelung zum Kontroller ausbessern/austauschen.

Wenn das nichts bringt: Festplatte selber auf Fehler überprüfen.

Bereite dich darauf vor, daß die Festplatte demnächst versterben könnte.

 

Link to comment
  • 2 weeks later...

Danke für diese ausführliche Antwort. Ich habe zum Testen nun die SATA Ports auf dem Board getauscht. Das Problem hat sich nun verschoben. Jetzt kommen diverse Fehlermeldungen von der Cache Disk, da diese nun auf dem Port steckt wo vorher die Parity-Disk gesteckt hat. Ich würde jetzt wirklich behaupten das dieser Port definitiv einen an der Waffel hat… 

Link to comment
10 minutes ago, Torben_TSL said:

Danke für diese ausführliche Antwort. Ich habe zum Testen nun die SATA Ports auf dem Board getauscht. Das Problem hat sich nun verschoben. Jetzt kommen diverse Fehlermeldungen von der Cache Disk, da diese nun auf dem Port steckt wo vorher die Parity-Disk gesteckt hat. Ich würde jetzt wirklich behaupten das dieser Port definitiv einen an der Waffel hat… 

Das ist möglich, doch sind es meist eher die Kabel oder unsaubere Steckverbindungen.

  • Like 1
Link to comment

So der Fehler ist wieder da. Er kommt ca 2x am Tag. bei der ATA2.00 handelt es sich um die Parity-Disk... Die ist jetzt 2 Jahre alt... Habe mir neue SATA Kabel bestellt und werde die austauschen. Kann auch ein defekt am Sata Port einer andren Disk sowas verursachen ?

 

Quote

Jul 15 12:11:24 Tardis kernel: ata2.00: exception Emask 0x50 SAct 0x300 SErr 0x4090800 action 0xe frozen
Jul 15 12:11:24 Tardis kernel: ata2.00: irq_stat 0x00400040, connection status changed
Jul 15 12:11:24 Tardis kernel: ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
Jul 15 12:11:24 Tardis kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul 15 12:11:24 Tardis kernel: ata2.00: cmd 60/40:40:40:c6:28/00:00:89:00:00/40 tag 8 ncq dma 32768 in
Jul 15 12:11:24 Tardis kernel:         res 40/00:00:e8:7b:4a/00:00:89:00:00/40 Emask 0x50 (ATA bus error)
Jul 15 12:11:24 Tardis kernel: ata2.00: status: { DRDY }
Jul 15 12:11:24 Tardis kernel: ata2.00: failed command: READ FPDMA QUEUED
Jul 15 12:11:24 Tardis kernel: ata2.00: cmd 60/40:48:40:c6:48/00:00:89:00:00/40 tag 9 ncq dma 32768 in
Jul 15 12:11:24 Tardis kernel:         res 40/00:00:e8:7b:4a/00:00:89:00:00/40 Emask 0x50 (ATA bus error)
Jul 15 12:11:24 Tardis kernel: ata2.00: status: { DRDY }
Jul 15 12:11:24 Tardis kernel: ata2: hard resetting link
Jul 15 12:11:30 Tardis kernel: ata2: link is slow to respond, please be patient (ready=0)
Jul 15 12:11:34 Tardis kernel: ata2: COMRESET failed (errno=-16)
Jul 15 12:11:34 Tardis kernel: ata2: hard resetting link
Jul 15 12:11:36 Tardis kernel: ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jul 15 12:11:37 Tardis kernel: ata2.00: configured for UDMA/100
Jul 15 12:11:37 Tardis kernel: ata2: EH complete

 

PS: Habe mir zum Glück eine LSI Karte bestellt, welche ich nicht einbauen kann... Man sollte halt vorher schauen was für PCI E Ports auf dem Board verbaut sind...

Link to comment
2 hours ago, Torben_TSL said:

PS: Habe mir zum Glück eine LSI Karte bestellt, welche ich nicht einbauen kann... Man sollte halt vorher schauen was für PCI E Ports auf dem Board verbaut sind...

 

Hast Du laut Diagnostics nicht ein Biostar Racing B460GTQ

1x PCIe 3.0 x16
2x PCIe 3.0 x1
1x M.2/M-Key (PCIe 3.0 x4/SATA)
1x M.2/M-Key (PCIe 3.0 x4)
https://geizhals.de/biostar-racing-b460gtq-a2306941.html

mit einer Intel Core i5-10400 (incl. iGPU)?

Habe ich in der Diagnostics ein Gerät übersehen? Was steckt im PCIe 3.0 x16 Slot?

Der Marvel (welcher für unraid nicht empfehlenswert ist) steckt als x1 doch bestimmt im PCIe 3.0 x1 Slot oder?

Link to comment

Erneutes Update: da ich zu unbeholfen war um die LSI Karte einzubauen, hab ich das jetzt gemacht und diese wir auch im Unraid erkannt. Ich habe ebenfalls das SATA Kabel zur Partity Disk (ATA2.00) getauscht und bislang ist noch kein Fehler aufgetaucht. Das alte Kabel weisst erstmal keine Schäden auf aber es war sehr stark verformt an einer stelle...

  • Upvote 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...