Jump to content

btrfs srub error summary: read=36206647 super=3 Uncorrectable: 36206647


raiderbert
Go to solution Solved by mgutt,

Recommended Posts

Hallo Forum,

 

ich bin seit einigen Wochen stolzer Nutzer eines Unraid-Servers und habe seitdem alle meine Anwendungen (Docker, VMs) von zwei Raspi4 und einem QNAP nach Unraid umgezogen. Das lief bis dato auch alles sehr geschmeidig, aber nun fiel mir vorhin auf, dass /var/log vollgelaufen war.

Das syslog ist auf einmal voll mit solchen Fehlern:

 

Apr  7 23:53:19 UNRAID1 kernel: BTRFS error (device nvme0n1p1): bdev /dev/sdd1 errs: wr 135185293, rd 81385031, flush 321858, corrupt 9, gen 0
Apr  7 23:53:19 UNRAID1 kernel: BTRFS error (device nvme0n1p1): error writing primary super block to device 2

Apr  7 23:25:47 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): i/o error at logical 929682395136 on dev /dev/sdd1, physical 133943234560, root 5, inode 260, offset 8012402688, length 4096, links 1 (path: system/docker/docker.img)

Apr  7 23:24:37 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): i/o error at logical 914604810240 on dev /dev/sdd1, physical 119939391488, root 5, inode 2476, offset 1934389248, length 4096, links 1 (path: domains/home_assistant/haos_ova-9.5.qcow2)

 

 

Anscheinend ging es damit heute früh los:

Apr  7 00:55:08 UNRAID1 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Apr  7 00:55:08 UNRAID1 kernel: ata1.00: failed command: DATA SET MANAGEMENT
Apr  7 00:55:08 UNRAID1 kernel: ata1.00: cmd 06/01:01:00:00:00/00:00:00:00:00/a0 tag 19 dma 512 out
Apr  7 00:55:08 UNRAID1 kernel:         res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Apr  7 00:55:08 UNRAID1 kernel: ata1.00: status: { DRDY }
Apr  7 00:55:08 UNRAID1 kernel: ata1: hard resetting link
Apr  7 00:55:13 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0)
Apr  7 00:55:18 UNRAID1 kernel: ata1: COMRESET failed (errno=-16)
Apr  7 00:55:18 UNRAID1 kernel: ata1: hard resetting link
Apr  7 00:55:23 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0)
Apr  7 00:55:28 UNRAID1 kernel: ata1: COMRESET failed (errno=-16)
Apr  7 00:55:28 UNRAID1 kernel: ata1: hard resetting link
Apr  7 00:55:33 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0)
Apr  7 00:56:03 UNRAID1 kernel: ata1: COMRESET failed (errno=-16)
Apr  7 00:56:03 UNRAID1 kernel: ata1: limiting SATA link speed to 3.0 Gbps
Apr  7 00:56:03 UNRAID1 kernel: ata1: hard resetting link
Apr  7 00:56:08 UNRAID1 kernel: ata1: COMRESET failed (errno=-16)
Apr  7 00:56:08 UNRAID1 kernel: ata1: reset failed, giving up
Apr  7 00:56:08 UNRAID1 kernel: ata1.00: disable device
Apr  7 00:56:08 UNRAID1 kernel: ata1: EH complete
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#14 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#14 CDB: opcode=0x28 28 00 15 ab b2 98 00 00 08 00
Apr  7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 363573912 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
Apr  7 00:56:08 UNRAID1 kernel: BTRFS error (device nvme0n1p1): bdev /dev/sdd1 errs: wr 0, rd 1, flush 0, corrupt 0, gen 0
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#15 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=90s
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#15 CDB: opcode=0x93 93 08 00 00 00 00 0e 6c 00 28 00 00 00 40 00 00
Apr  7 00:56:08 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): direct IO failed ino 260 rw 0,0 sector 0x15abb298 len 0 err no 10
Apr  7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 241958952 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 0
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#16 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
Apr  7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#16 CDB: opcode=0x28 28 00 15 ab b2 d8 00 00 08 00
Apr  7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 363573976 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0

 

 

Ein Scrub inkl. "Repair corrupted blocks" verlief wenig erfolgreich:

btrfs srub error summary:

read=36206647 super=3

Uncorrectable:  36206647

 

Spannend ist, dass alle Docker-Container sowie meine beiden VMs (Home Assistant und Loxberry) fehlerfrei zu laufen scheinen. 

 

Zum Aufbau:

image.png.1f74d6f5c8230083c74c74c47889bc78.png

 

 

Ein "SMART short self-test" zeigt für nvme0n1 keine Fehler:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        60 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    6,421,646 [3.28 TB]
Data Units Written:                 7,740,431 [3.96 TB]
Host Read Commands:                 79,775,205
Host Write Commands:                64,814,314
Controller Busy Time:               295
Power Cycles:                       16
Power On Hours:                     149
Unsafe Shutdowns:                   5
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               60 Celsius
Temperature Sensor 2:               81 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

 

 

Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen?

Vielen Dank für eure Unterstützung!

 

Edited by raiderbert
Link to comment
7 hours ago, raiderbert said:

Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen?

 

Thema BTRFS ... da wirst du hier einiges finden ;)

 

am Ende würde ich persönlich vorschlagen, sichere die relevanten Daten runter, mach es platt und neu und überleg ob es Sinn macht eine nvme und ssd ? in einen pool zu setzen ... einerseits bremst du den Pool damit gewaltig ein und hast 2 verschiedene Arten in einem Pool laufen.

 

Da dieses Thema ja Richtung "Glaubensfrage" geht ;) einfach nochmal versuchen (Backups machen !!!) ;)

 

@mgutt kann Dir vielleicht noch ein paar Tipps geben zur Rettung des aktuellen Pools, wenn du danach suchst wirst du auch sicherlich vorher selbst fündig, das Thema BTRFS Fehler ... gibt es ja einige ... ;)

 

Einige sind entweder auf single drive caches (meist xfs) gewechselt mit Backup Strategie oder jetzt auf den 6.12rc Zug aufgesprungen mit ZFS Pools.

Link to comment
  • Solution
8 hours ago, raiderbert said:
hard resetting link
Apr  7 00:56:08 UNRAID1 kernel: I/O error, dev sdd

 

Die physische Verbindung von sdd ist gestört. Wodran hängt sdd? Nutzt du Stromsparmechanismen? Kabel in Ordnung? Stecker sitzt richtig? Meldet SMART des Datenträgers CRC Fehler?

 

8 hours ago, raiderbert said:

Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen?

Vom Prinzip gar nicht. Du kannst jetzt nur raten, dass die Daten auf der NVMe in Ordnung sind. Dh Einstellungen > Docker und auf Nein. Jetzt überlegen was man macht. Ich würde zb alles wegkopieren:


rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/cache &> /mnt/disk1/rsync.log & disown

 

Die Log-Datei kannst du dir dann anschauen wegen evtl Fehlern.

 

Danach Pool löschen und neu erstellen, sobald du herausgefunden hast, was mit der SATA los ist. Wobei NVMe und SATA in Kombination eh Quark ist. Du bremst damit ja die NVMe aus.

Link to comment
On 4/11/2023 at 10:49 AM, Cajunjoe said:

@raiderbert Hatte ein ähnliches Setup und der Fehler kam nach ein paar Tagen immer wieder. Nach langer Recherche konnte ich den Fehler eingrenzen. Gab auch schon ein Post dazu. Bei mir lag es an der Crucial MX500, die hat in einer Firmware einen Bug. Habe diese gegen eine WD Blue getauscht, läuft nun seit Monaten ohne Probleme auch mit BTRFS

BTRFS red error corrected - Deutsch - Unraid

 

Danke dir, das wird es bei mir auch gewesen sein. Ich habe den Cache Pool mittlerweile aufgelöst und die Crucial als unassigned device mit XFS eingehangen.

  • Thanks 1
Link to comment
On 4/8/2023 at 8:51 AM, mgutt said:

Die physische Verbindung von sdd ist gestört. Wodran hängt sdd? Nutzt du Stromsparmechanismen? Kabel in Ordnung? Stecker sitzt richtig? Meldet SMART des Datenträgers CRC Fehler?

 

Vom Prinzip gar nicht. Du kannst jetzt nur raten, dass die Daten auf der NVMe in Ordnung sind. Dh Einstellungen > Docker und auf Nein. Jetzt überlegen was man macht. Ich würde zb alles wegkopieren:


rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/cache &> /mnt/disk1/rsync.log & disown

 

Die Log-Datei kannst du dir dann anschauen wegen evtl Fehlern.

 

Danach Pool löschen und neu erstellen, sobald du herausgefunden hast, was mit der SATA los ist. Wobei NVMe und SATA in Kombination eh Quark ist. Du bremst damit ja die NVMe aus.

 

Vielen Dank für deine Unterstützung! Ich konnte meine Daten mittlerweile ohne Verlust wiederherstellen.

Vorgehen wie von dir vorgeschlagen:

 

Alle VMs stoppen.

Alle Docker Container stoppen.

Settings -> Docker und VM Manager deaktivieren.

 

Daten sichern:

rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/20230408_cache &> /mnt/disk1/rsync.log & disown

 

Auflösung des Cache Pools.

NVMe als Single Cache Device mit XFS formatiert.

 

Daten wiederherstellen:

rsync --archive --stats /mnt/disk1/backup/20230408_cache/ /mnt/cache/ &> /mnt/disk1/rsync_back.log & disown

 

Die SATA habe ich dann mit XFS formatiert und als ua-device eingehängt.

Läuft jetzt seit einer Woche fehlerfrei.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...