Cache Uncorrectable Errors


Revan335

Recommended Posts

Hallo,

 

scheinbar mag mich der Cache wieder nicht.

Er meldet beim Btrfs Scrub eine hohe Zahl an Error summary: read=6914330 super=3 sowie wenn man den Reparatur Haken nutzt, auch bei Uncorrectable (gleiche Zahl).

 

Liegt das ggf. an den Snapshots vdisks die wir erstellt hatten? @mgutt

 

Docker Dienst hab ich schon beendet. Falls es den Repair behindert.

 

Hilft ggf. ein Server Reboot? Damit man die Reparatur ohne Fehler durchführen kann.

 

Vielen Dank!

 

Viele Grüße

 

Revan335

Link to comment
1 hour ago, Revan335 said:

Liegt das ggf. an den Snapshots vdisks die wir erstellt hatten?

Nein.

 

1 hour ago, Revan335 said:

Docker Dienst hab ich schon beendet. Falls es den Repair behindert.

Auch irrelevant.

 

1 hour ago, Revan335 said:

 

Hilft ggf. ein Server Reboot?

Nein. Natürlich auch nicht.

 

Dir scheint nicht ganz klar zu sein auf welcher Ebene da was kaputt ist. Dein Dateisystem ist kaputt. Irreparabel. Das hat nichts mit Software zu tun.

 

Und ein Dateisystem geht auch nicht per Software kaputt. Das resultiert aus physischen Gründen. Zb Defekte Verbindung des Datenträgers. Defekter RAM. Oder defekter Datenträger als solches.

 

Jetzt heißt es herausfinden was da die Ursache ist. Ohne Backups würde ich mich jetzt meinen Zentimeter mehr bewegen.

 

Zuerst würde ich auch gleich mal den RAM prüfen. Wenn der defekt sein sollte, richtet man nur noch mehr Schaden an.

 

 

 

Link to comment
9 minutes ago, Revan335 said:

Memtest beim Unraid Boot?

Jo

 

11 minutes ago, Revan335 said:

Danach dann am besten wie die NVMes wie testen?

Da bevorzuge ich den Einbau in einen Windows PC und die Nutzung der Original Herstellertools. Also da dann erweiterte SMART Tests machen und sich die SMART Daten vorher / nachher anschauen.

 

Wenn sich dann wegen dem RAM nichts ergibt, würde ich für die erste Zeit zwei XFS Pools erstellen und zb nachts alle Container und VMs stoppen und dann einen 1:1 Sync auf die zweite NVMe machen. Also erstmal ohne RAID1 arbeiten, um evtl ermitteln zu können, welche der beiden NVMe oder M.2 Slots das Problem verursachen, sofern es dann noch auftreten sollte.

 

 

Link to comment

Du könntest mit dem Preclear Plugin die NVMe mal komplett beschreiben und verifizieren lassen. Dabei fallen sogar RAM Fehler auf.

 

Ansonsten ist die Frage ob es Probleme mit ASPM, also Stromsparmechanismen gibt.

 

Eventuell installierst du dir auch mal das Skript:

 

Dann bekommst du per E-Mail alle syslog Fehler gemeldet.

Link to comment
1 hour ago, mgutt said:

Du könntest mit dem Preclear Plugin die NVMe mal komplett beschreiben und verifizieren lassen. Dabei fallen sogar RAM Fehler auf.

Wie bekommt man die den aus dem RAID raus, damit man die preclearen kann?

Funktioniert/Bleibt die erste dann noch unangetastet mit deren Daten, wenn die zweite raus ist, aufgrund von RAID 1 sollte das ja möglich sein.

Link to comment

Merkwürdig, jetzt sind beide laut Unraid nicht mehr vorhanden dementsprechend wurde auch das Array gestoppt wegen Konfigurationsänderung.

Auch scheint er nen Auto Reboot gemacht zu haben entweder durch Stromausfall obwohl ne USV dran hängt oder einem anderen Grund.

 

Ich schaue mal ob es nochmal ein neues BIOS für das Board gibt.

ASRock X570M Pro4
American Megatrends Inc., Version P3.70
BIOS Datum: Mi 23 Feb 2022 12:00:00 AM CET

 

Auch schmeiß ich mal den Memtest an.

 

NVMe USB Adapter/Gehäuse sind unterwegs.

 

Was nutzt man den für den Test?

Der WD LifeGuard ist glaube ich nur für HDDs.

 

On 2/7/2023 at 11:15 PM, mgutt said:

Ansonsten ist die Frage ob es Probleme mit ASPM, also Stromsparmechanismen gibt.

Das kann ich natürlich nicht ausschließen.

Link to comment
8 minutes ago, mgutt said:

Dann mach dir einen Bootstick mit einer der bekannten memtest Tools.

Scheinbar funktioniert es nun und der Test startet automatisch oder der Boot Stick funktioniert.

Was müsste man beim memtest86 für Optionen wählen? Wenn ich ins Readme PDF schaue, gibt es dort viele Auswahlmöglichkeiten bei der aktuellen V10.

 

Falls die V5.x+ vom Unraid Stick nicht durchlaufen sollte.

Link to comment
6 minutes ago, Revan335 said:

inklusive Werksresett und BIOS durch temp entfernen dessen Batterie.

Normal reicht da die Default Settings zu laden, aber so geht es natürlich auch.

 

35 minutes ago, Revan335 said:

Ich würde sagen, der RAM hat keinen Fehler

Du hast aber gesehen, dass der noch nicht durchgelaufen war? Laut deinem Screenshot erst 77%.

 

On 2/8/2023 at 12:40 AM, Revan335 said:

Wie bekommt man die den aus dem RAID raus, damit man die preclearen kann?

Ich hätte jetzt Einstellungen > Docker und > VM und dort beide Dienste auf Nein gestellt. Dann alle Shares beim Cache auf "Yes" und den Mover gestartet, damit die SSDs geleert werden. Und wenn sie leer sind, dann Tools > New Config und Array behalten. Dann hast du keinen Pool mehr und kannst erst mal die NVMes prüfen.

Link to comment
1 hour ago, mgutt said:

RAM sollte demnach passen. Wenn du auf Nummer sicher gehen willst, kannst du den RAM im BIOS auch auf 3200 MHz einstellen. Die hohe Frequenz nützt dir eh nichts.

OK, hatte irgendwie gehofft das es irgendwas bringt.

 

Ich vermute dies ist die richtige Funktion?

 

2023-02-09-22-52-36-215.thumb.jpg.e3909628cdf17814a3b361492dfeca37.jpg

 

Die steht auf Auto. Die soll dann auf DDR4-3200?

2023-02-09-22-55-20-839.thumb.jpg.896c73e531994e7fc546599aa53ad684.jpg

Edited by Revan335
Link to comment
On 2/9/2023 at 8:10 AM, mgutt said:

Ich hätte jetzt Einstellungen > Docker und > VM und dort beide Dienste auf Nein gestellt. Dann alle Shares beim Cache auf "Yes" und den Mover gestartet, damit die SSDs geleert werden. Und wenn sie leer sind, dann Tools > New Config und Array behalten. Dann hast du keinen Pool mehr und kannst erst mal die NVMes prüfen.

Er hat Anfangs was gemacht, aber jetzt scheint der Mover nichts mehr zu machen obwohl noch Daten auf dem Cache liegen. Gibt es nen spezielles Log wo man die Aktivität sehen kann?

Mover Protokollierung hab ich nun auch aktiviert.

 

Oder gibt es ein anderes Log wenn Mover Tuning installiert ist?

Edited by Revan335
Link to comment
48 minutes ago, mgutt said:

Deinstalliere das Plugin bitte und dann noch mal starten. Wer weiß wie das dazwischen grätscht. Was sind denn noch für Ordner drauf?

 

appdata 61 B, ein eigener Log Ordner 159 MB und system mit über 78 GB. System ist noch komplett auf dem Cache. Die anderen sind bis auf den genannten Rest schon auf dem Array.

Link to comment
42 minutes ago, Revan335 said:

Er sagt aber oft das er Specified filename /mnt/cache/system/docker/docker/btrfs/subvolumes/Buchstaben Zahlen/usr/share/zoneinfo/posix/Greenwich dies not exist. Die anderen Meldungen sind ähnlich nur mit anderen Dateien von system.

Das ist vermutlich dieser Bug:

https://forums.unraid.net/bug-reports/prereleases/690-rc2-mover-file-does-not-exist-r1232/

 

Du hast nun zwei Optionen:

- von Hand verschieben

- den Ordner /mnt/user/system/docker komplett löschen

 

Keine Angst, dann ist die Seite "Docker" erst mal komplett leer. Einfach wieder über Add Container aus dem Dropdown die Container auswählen und wieder hinzufügen. Die eigentliche Docker-Umgebung, also alles was in /mnt/user/system/docker ist vom Prinzip irrelevant. Falls du von Hand über die Kommandozeile Netzwerke erstellt hattest, musst du dir nur wieder erstellen.

 

 

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.