raiderbert Posted April 7, 2023 Share Posted April 7, 2023 (edited) Hallo Forum, ich bin seit einigen Wochen stolzer Nutzer eines Unraid-Servers und habe seitdem alle meine Anwendungen (Docker, VMs) von zwei Raspi4 und einem QNAP nach Unraid umgezogen. Das lief bis dato auch alles sehr geschmeidig, aber nun fiel mir vorhin auf, dass /var/log vollgelaufen war. Das syslog ist auf einmal voll mit solchen Fehlern: Apr 7 23:53:19 UNRAID1 kernel: BTRFS error (device nvme0n1p1): bdev /dev/sdd1 errs: wr 135185293, rd 81385031, flush 321858, corrupt 9, gen 0 Apr 7 23:53:19 UNRAID1 kernel: BTRFS error (device nvme0n1p1): error writing primary super block to device 2 Apr 7 23:25:47 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): i/o error at logical 929682395136 on dev /dev/sdd1, physical 133943234560, root 5, inode 260, offset 8012402688, length 4096, links 1 (path: system/docker/docker.img) Apr 7 23:24:37 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): i/o error at logical 914604810240 on dev /dev/sdd1, physical 119939391488, root 5, inode 2476, offset 1934389248, length 4096, links 1 (path: domains/home_assistant/haos_ova-9.5.qcow2) Anscheinend ging es damit heute früh los: Apr 7 00:55:08 UNRAID1 kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Apr 7 00:55:08 UNRAID1 kernel: ata1.00: failed command: DATA SET MANAGEMENT Apr 7 00:55:08 UNRAID1 kernel: ata1.00: cmd 06/01:01:00:00:00/00:00:00:00:00/a0 tag 19 dma 512 out Apr 7 00:55:08 UNRAID1 kernel: res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Apr 7 00:55:08 UNRAID1 kernel: ata1.00: status: { DRDY } Apr 7 00:55:08 UNRAID1 kernel: ata1: hard resetting link Apr 7 00:55:13 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0) Apr 7 00:55:18 UNRAID1 kernel: ata1: COMRESET failed (errno=-16) Apr 7 00:55:18 UNRAID1 kernel: ata1: hard resetting link Apr 7 00:55:23 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0) Apr 7 00:55:28 UNRAID1 kernel: ata1: COMRESET failed (errno=-16) Apr 7 00:55:28 UNRAID1 kernel: ata1: hard resetting link Apr 7 00:55:33 UNRAID1 kernel: ata1: link is slow to respond, please be patient (ready=0) Apr 7 00:56:03 UNRAID1 kernel: ata1: COMRESET failed (errno=-16) Apr 7 00:56:03 UNRAID1 kernel: ata1: limiting SATA link speed to 3.0 Gbps Apr 7 00:56:03 UNRAID1 kernel: ata1: hard resetting link Apr 7 00:56:08 UNRAID1 kernel: ata1: COMRESET failed (errno=-16) Apr 7 00:56:08 UNRAID1 kernel: ata1: reset failed, giving up Apr 7 00:56:08 UNRAID1 kernel: ata1.00: disable device Apr 7 00:56:08 UNRAID1 kernel: ata1: EH complete Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#14 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#14 CDB: opcode=0x28 28 00 15 ab b2 98 00 00 08 00 Apr 7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 363573912 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0 Apr 7 00:56:08 UNRAID1 kernel: BTRFS error (device nvme0n1p1): bdev /dev/sdd1 errs: wr 0, rd 1, flush 0, corrupt 0, gen 0 Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#15 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=90s Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#15 CDB: opcode=0x93 93 08 00 00 00 00 0e 6c 00 28 00 00 00 40 00 00 Apr 7 00:56:08 UNRAID1 kernel: BTRFS warning (device nvme0n1p1): direct IO failed ino 260 rw 0,0 sector 0x15abb298 len 0 err no 10 Apr 7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 241958952 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 0 Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#16 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s Apr 7 00:56:08 UNRAID1 kernel: sd 2:0:0:0: [sdd] tag#16 CDB: opcode=0x28 28 00 15 ab b2 d8 00 00 08 00 Apr 7 00:56:08 UNRAID1 kernel: I/O error, dev sdd, sector 363573976 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0 Ein Scrub inkl. "Repair corrupted blocks" verlief wenig erfolgreich: btrfs srub error summary: read=36206647 super=3 Uncorrectable: 36206647 Spannend ist, dass alle Docker-Container sowie meine beiden VMs (Home Assistant und Loxberry) fehlerfrei zu laufen scheinen. Zum Aufbau: Ein "SMART short self-test" zeigt für nvme0n1 keine Fehler: === START OF SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED SMART/Health Information (NVMe Log 0x02) Critical Warning: 0x00 Temperature: 60 Celsius Available Spare: 100% Available Spare Threshold: 10% Percentage Used: 0% Data Units Read: 6,421,646 [3.28 TB] Data Units Written: 7,740,431 [3.96 TB] Host Read Commands: 79,775,205 Host Write Commands: 64,814,314 Controller Busy Time: 295 Power Cycles: 16 Power On Hours: 149 Unsafe Shutdowns: 5 Media and Data Integrity Errors: 0 Error Information Log Entries: 0 Warning Comp. Temperature Time: 0 Critical Comp. Temperature Time: 0 Temperature Sensor 1: 60 Celsius Temperature Sensor 2: 81 Celsius Error Information (NVMe Log 0x01, 16 of 64 entries) No Errors Logged Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen? Vielen Dank für eure Unterstützung! Edited April 7, 2023 by raiderbert Quote Link to comment
alturismo Posted April 8, 2023 Share Posted April 8, 2023 7 hours ago, raiderbert said: Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen? Thema BTRFS ... da wirst du hier einiges finden am Ende würde ich persönlich vorschlagen, sichere die relevanten Daten runter, mach es platt und neu und überleg ob es Sinn macht eine nvme und ssd ? in einen pool zu setzen ... einerseits bremst du den Pool damit gewaltig ein und hast 2 verschiedene Arten in einem Pool laufen. Da dieses Thema ja Richtung "Glaubensfrage" geht einfach nochmal versuchen (Backups machen !!!) @mgutt kann Dir vielleicht noch ein paar Tipps geben zur Rettung des aktuellen Pools, wenn du danach suchst wirst du auch sicherlich vorher selbst fündig, das Thema BTRFS Fehler ... gibt es ja einige ... Einige sind entweder auf single drive caches (meist xfs) gewechselt mit Backup Strategie oder jetzt auf den 6.12rc Zug aufgesprungen mit ZFS Pools. Quote Link to comment
Solution mgutt Posted April 8, 2023 Solution Share Posted April 8, 2023 8 hours ago, raiderbert said: hard resetting link Apr 7 00:56:08 UNRAID1 kernel: I/O error, dev sdd Die physische Verbindung von sdd ist gestört. Wodran hängt sdd? Nutzt du Stromsparmechanismen? Kabel in Ordnung? Stecker sitzt richtig? Meldet SMART des Datenträgers CRC Fehler? 8 hours ago, raiderbert said: Wie geht ich jetzt am Besten vor, um diese Fehler zu bereinigen? Vom Prinzip gar nicht. Du kannst jetzt nur raten, dass die Daten auf der NVMe in Ordnung sind. Dh Einstellungen > Docker und auf Nein. Jetzt überlegen was man macht. Ich würde zb alles wegkopieren: rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/cache &> /mnt/disk1/rsync.log & disown Die Log-Datei kannst du dir dann anschauen wegen evtl Fehlern. Danach Pool löschen und neu erstellen, sobald du herausgefunden hast, was mit der SATA los ist. Wobei NVMe und SATA in Kombination eh Quark ist. Du bremst damit ja die NVMe aus. Quote Link to comment
Cajunjoe Posted April 11, 2023 Share Posted April 11, 2023 @raiderbert Hatte ein ähnliches Setup und der Fehler kam nach ein paar Tagen immer wieder. Nach langer Recherche konnte ich den Fehler eingrenzen. Gab auch schon ein Post dazu. Bei mir lag es an der Crucial MX500, die hat in einer Firmware einen Bug. Habe diese gegen eine WD Blue getauscht, läuft nun seit Monaten ohne Probleme auch mit BTRFS BTRFS red error corrected - Deutsch - Unraid Quote Link to comment
raiderbert Posted April 16, 2023 Author Share Posted April 16, 2023 On 4/11/2023 at 10:49 AM, Cajunjoe said: @raiderbert Hatte ein ähnliches Setup und der Fehler kam nach ein paar Tagen immer wieder. Nach langer Recherche konnte ich den Fehler eingrenzen. Gab auch schon ein Post dazu. Bei mir lag es an der Crucial MX500, die hat in einer Firmware einen Bug. Habe diese gegen eine WD Blue getauscht, läuft nun seit Monaten ohne Probleme auch mit BTRFS BTRFS red error corrected - Deutsch - Unraid Danke dir, das wird es bei mir auch gewesen sein. Ich habe den Cache Pool mittlerweile aufgelöst und die Crucial als unassigned device mit XFS eingehangen. 1 Quote Link to comment
raiderbert Posted April 16, 2023 Author Share Posted April 16, 2023 On 4/8/2023 at 8:51 AM, mgutt said: Die physische Verbindung von sdd ist gestört. Wodran hängt sdd? Nutzt du Stromsparmechanismen? Kabel in Ordnung? Stecker sitzt richtig? Meldet SMART des Datenträgers CRC Fehler? Vom Prinzip gar nicht. Du kannst jetzt nur raten, dass die Daten auf der NVMe in Ordnung sind. Dh Einstellungen > Docker und auf Nein. Jetzt überlegen was man macht. Ich würde zb alles wegkopieren: rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/cache &> /mnt/disk1/rsync.log & disown Die Log-Datei kannst du dir dann anschauen wegen evtl Fehlern. Danach Pool löschen und neu erstellen, sobald du herausgefunden hast, was mit der SATA los ist. Wobei NVMe und SATA in Kombination eh Quark ist. Du bremst damit ja die NVMe aus. Vielen Dank für deine Unterstützung! Ich konnte meine Daten mittlerweile ohne Verlust wiederherstellen. Vorgehen wie von dir vorgeschlagen: Alle VMs stoppen. Alle Docker Container stoppen. Settings -> Docker und VM Manager deaktivieren. Daten sichern: rsync --archive --stats /mnt/cache/ /mnt/disk1/backup/20230408_cache &> /mnt/disk1/rsync.log & disown Auflösung des Cache Pools. NVMe als Single Cache Device mit XFS formatiert. Daten wiederherstellen: rsync --archive --stats /mnt/disk1/backup/20230408_cache/ /mnt/cache/ &> /mnt/disk1/rsync_back.log & disown Die SATA habe ich dann mit XFS formatiert und als ua-device eingehängt. Läuft jetzt seit einer Woche fehlerfrei. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.