Kernel: I/O error auf neuer SSD

May 3, 20242 yr

Hi zusammen,

ich habe mir gestern Abend zwei SSD´s (siehe Signatur) als Cache eingebaut. Die Samsung (sdf) läuft ohne Probleme, die WD (sdg) allerdings zeigt im Log permanent diese Fehler an:

May  3 20:40:30 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#29 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#29 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:30 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#11 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#11 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:30 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#7 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#7 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:30 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#12 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:30 Nasneu kernel: sd 10:0:0:0: [sdg] tag#12 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:30 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#13 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#13 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:31 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#14 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#14 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:31 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#15 UNKNOWN(0x2003) Result: hostbyte=0x04 driverbyte=DRIVER_OK cmd_age=0s
May  3 20:40:31 Nasneu kernel: sd 10:0:0:0: [sdg] tag#15 CDB: opcode=0x93 93 08 00 00 00 00 03 60 a0 70 00 02 00 00 00 00
May  3 20:40:31 Nasneu kernel: I/O error, dev sdg, sector 56664176 op 0x3:(DISCARD) flags 0x800 phys_seg 1 prio class 2
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1935, rd 0, flush 309, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1936, rd 0, flush 309, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1937, rd 0, flush 309, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1938, rd 0, flush 309, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1939, rd 0, flush 309, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1939, rd 0, flush 310, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS warning (device sdf1): lost page write due to IO error on /dev/sdg1 (-5)
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1940, rd 0, flush 310, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS warning (device sdf1): lost page write due to IO error on /dev/sdg1 (-5)
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1941, rd 0, flush 310, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS warning (device sdf1): lost page write due to IO error on /dev/sdg1 (-5)
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): bdev /dev/sdg1 errs: wr 1942, rd 0, flush 310, corrupt 0, gen 0
May  3 20:40:31 Nasneu kernel: BTRFS error (device sdf1): error writing primary super block to device 2

Nun weiß ich nicht genau wie das zu Stande kommt. Die WD ist nagelneu und wurde gerade erst gestern ausgepackt und eingebaut. Bringt es was die Firmware ggfs. zu updaten? Die Platte dient als Cache2 und unter Attribute steht: "Smartctl open device /dev/sdg failed".

Ich kann auch keinen S.M.A.R.T. Test durchführen und nichts. Weiß einer woran das liegen kann? Ggfs. Powertop? Oder passt das nicht zusammen. Und was genau sagt die Fehlermeldung eigentlich aus? Ist die Platte als Cache2 damit gar nicht aktiv?

image.png.c543ea87cbb551299417278903c826ea.png

Hier wird sie auch als aktiv und SMART OK angezeigt. Echt merkwürdig.

Danke Euch.

Gruß

Infosucher

nasneu-diagnostics-20240503-2038.zip

Quote

May 3, 20242 yr

Author

Nun habe ich den Server mal heruntergefahren und das Kabel getauscht. Aktuell treten keine Fehler auf. Auch ein SMART Test ist jetzt möglich und die Temperatur wird mir auch angezeigt. Ein Firmwareupdate war leider nicht möglich, da ich bereits die neueste Version drauf habe.

Wenn Powertop über die NerdTools aktiv ist, läuft es dann auch permanent? Oder nur wenn ich den --auto-tune Befehl ausführe? Wobei ich vorhin mal alles in Powertop nach und nach auf "bad" gesetzt habe, sich dabei aber nichts getan hat. Die Fehlermeldungen blieben vorhanden.

Ich warte jetzt mal ab und wenn die Fehler ausbleiben, starte ich nochmal powertop --auto-tune in der Kommandozeile. Mal schauen ob die Fehler dann wieder auftreten.

Gruß

Infosucher

Quote

May 3, 20242 yr

Author

Ok das mit dem Kabel brachte natürlich auch keinen Erfolg. Ich denke es liegt an btrfs! Ich habe versucht xfs im RAID1 zu betreiben, aber leider gibt es diese Auswahl gar nicht. Wenn ich den Cache mit nur einer SSD betreibe, dann kann ich xfs auch auswählen. Nutze ich zwei SSD´s für den Cache, so geht nur ZFS oder btrfs. Dann werde ich kein RAID1 für den SSD Cache verwenden und bei XFS damit bleiben. Die Fehler sind seit dem auf jeden Fall verschwunden. Mal schauen was ich dann mit der SSD von WD mache, welche ich jetzt auch in XFS formatiert habe und die nun keine Fehler mehr produziert.

Edit: Weitere interessante Erkenntnis. Ich kann die WD SSD nicht mal als Unassigned Device einbinden. Unter Windows bekomme ich sie zum Laufen aber unter Unraid leider nicht. Ich denke da stimmt wirklich was nicht. Selbst mit XFS als Dateisystem bekomme ich diese read errors. Ich werde nochmal eine neuere Samsung SSD mit 1TB und versuchen die WD umzutauschen.

Gruß

Infosucher

Edited May 3, 20242 yr by Infosucher

Quote

May 3, 20242 yr

46 minutes ago, Infosucher said:

Ok das mit dem Kabel brachte natürlich auch keinen Erfolg.

Es gibt einige WD SSD, die Probleme machen, aberich dachet bisher, es seinem NVMe SSD, deren Firmware über das PCIe interface Fehlermeldungen erzeugt.

46 minutes ago, Infosucher said:

Ich denke es liegt an btrfs!

BTRFS (so kann man hier des öfteren lesen (und so sehe ich es auch) ) macht häufig probleme. Ich meide es.

46 minutes ago, Infosucher said:

Ich habe versucht xfs im RAID1 zu betreiben,

xfs für single disks (im Array oder Pool)

ab unraid 6.12.x: zfs für Fetplattenverbünde (Pool)

ab unraid 6.12.x: weg von btrfs!

46 minutes ago, Infosucher said:

Wenn ich den Cache mit nur einer SSD betreibe, dann kann ich xfs auch auswählen

hast Du irgendwo gelesen, das xfs sowas wie Raid selber erstellen kann?

46 minutes ago, Infosucher said:

. Nutze ich zwei SSD´s für den Cache, so geht nur ZFS oder btrfs.

korrekt. Und btrfs sollte man meioden, wenn es geht (persönliche Meinung aus vielen Beiträgen hier).

46 minutes ago, Infosucher said:

Dann werde ich kein RAID1 für den SSD Cache verwenden und bei XFS damit bleiben.

Das kannst Du so handhaben.

46 minutes ago, Infosucher said:

Die Fehler sind seit dem auf jeden Fall verschwunden. Mal schauen was ich dann mit der SSD von WD mache,

verkaufen.

Quote

May 4, 20242 yr

Author

Erstmal danke für die Infos. Dann bin ich ja nicht komplett auf dem Holzweg. Wenn ich das richtig gelesen habe, sollte man ZFS aber nur verwenden, wenn man ECC Ram besitzt. Den habe ich natürlich nicht und wollte ihn mir auch nicht zulegen, da ich dann noch das Board tauschen müsste. Dann macht es wahrscheinlich wirklich Sinn, bei einem Laufwerk im Cache Pool zu bleiben und dann automatisiert in der Nacht ein Backup zu ziehen und gut ist es. Dann sollte sich ein evtl. Verlust in Grenzen halten.

Gruß

Infosucher

Quote

May 4, 20242 yr

10 hours ago, Infosucher said:

Wenn ich das richtig gelesen habe, sollte man ZFS aber nur verwenden, wenn man ECC Ram besitzt.

Also zfs ist Ramhungriger als diverse andere FS.

Hast Du defekten/fehleranfälligen Ram oder befürchtest Du defekten Ram zu haben? Dann teste ihn ausgiebig.

Sollte ein Fehler drin sein und weder die ausführende Software hat ihn nicht bemerkt/ist abgestürzt, ist es aber egal ob der Fehler nun per btrfs, xfs, zfs oder sonst irgendwo auf dem Weg von/zu einer Komponente (Lan, CPU, Speicherkontroller, I/O-Devices...) die Daten verändert.

Verändert sind sie sowieo.

Du kannst also gerne zfs ohne ECC betreiben oder auch btrfs ohne ECC oder auch xfs ohne ECC.

Wenn der RamFehler nicht direkt die Software abstürzen läßt, dann sind eben irgendwo in den Nutzdaten ein paar gekippte Bits drin.

Bei Bildern: einige Formate haben eine gewisse Fehlerkorrektur drin, andere nicht. Sollte i einem der letzten ein Bit gekippft sein, hat der Himmel in einem Pixel vielleicht nicht mehr Blau 200, sondern nur noch Blau 164 an der Stelle. Kann passieren. ja.

Aber das passiert Dir bei btrs oder xfs oder so schlimmstenfalls auch, wenn sich ein solcher Fehler einschleicht, weil Du ja sowieso generell ohne Ram Schutz unterwegs bist.

10 hours ago, Infosucher said:

Den habe ich natürlich nicht und wollte ihn mir auch nicht zulegen, da ich dann noch das Board tauschen müsste.

Also hast Du eben die Gefahr, daß Ramprobleme unerkannt bei anderen Filesystemen zuschlagen. Was hast Du dadurch gewonnen, dass Du nun auf zfs verzichtet hast und dafür btrfs Probleme erlebst?

10 hours ago, Infosucher said:

bei einem Laufwerk im Cache Pool zu bleiben und dann automatisiert in der Nacht ein Backup zu ziehen und gut ist es.

So mache ich es, aber auch da wird ein Bitfehler, der nicht direkt die Software abstürzen läßt munter Deine Daten verändern.

Was hast Du dadurch nun gewonnen? Du hast nur einer geringere Ausfallsicherheit und nicht mal den Schutz gegen Bitrot, den zfs bieten kann.

Wenn Du wirklich Angst vor RAM fehlern hast mußt Du das Computern aufgeben oder gleich in die teuren Vollen gehen: ECC mit >1Bit Fehlerkorretur.

Wen selbst mit einfachem ECC werden Fehler nur erkannt, aber was dann? repariert werden können die schlimmstenfalls nicht, also werden alle Prozesse gestoppt, damit sich nichts fortsetzt. Und da alle Prozesse gestoppt sind, erfährst Du nicht, warum die Kiste eingefrohren ist, sondern merkst nur, sie ist eingefrohren.

ECC gibt es eben (nicht nur seit ECC on Die bei DDR5 verkauft wird) in verschiedenen Variationen und je sicherer/redundanter es ist, desto teurer wird es.

10 hours ago, Infosucher said:

Dann sollte sich ein evtl. Verlust in Grenzen halten.

...oder Du kopierst den Fehler unbemerkt mit.

Nicht faksch verstehen: ich habe einfache ECC systeme, aber nur, weil ich es eben von Anfang an mal ausprobieren wollte und gut fand.

Aber wenn Du ein "nicht ECC" Ram lange + intensiv testest und es werden da keine Fehler gefunden, dann sollte das System auch mit recht großer Wahrscheinlichkeit recht lange keinen solchen Fehler haben.

Natürlich kann immer Murphy zuschlagen und dann hat man Pech, aber das hat nicht wirklich etwas mit zfs zu tun.

Quote

Kernel: I/O error auf neuer SSD

Featured Replies

Join the conversation

Account

Navigation

Search

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)