Festplatte "disabled" - Was tun?


Jukes

Recommended Posts

Hallo,

 

vielleicht könnt ihr mir helfen. Nach einem Neustart meines Servers ist nun meine Disk 4 "disabled", obwohl die SMART-Werte keine Errors anzeigen. Ich habe die Kabel gecheckt, ausgetauscht und des öfteren neugestartet. Das Ergebnis ist immer dasselbe: disabled.

 

Was kann man jetzt machen? Bei der Festplatte handelt es sich um eine Seagate Ironwolf 10TB

Edited by Jukes
Link to comment

Ich ziehe mal raus, was ich in den Logs so gefunden habe:

 

system/vars.txt

monitor
(
    [smart] => Array
        (
            [disk7.199] => 20
            [dev3.199] => 12198120
        )

    [u..d] => Array
        (
            [disk1] => 95
            [disk2] => 92
            [disk3] => 92
            [disk4] => 94
            [disk5] => 90
            [disk7] => 93
            [disk8] => 91
            [disk9] => 90
            [disk6] => 93
        )

    [d..k] => Array
        (
            [disk4] => red
        )

)
...
    [disk4] => Array
        (
            [idx] => 4
            [name] => disk4
            [device] => sdl
            [id] => ST10000NE0008-2PL103_ZS50728B
            [size] => 9766436812
            [status] => DISK_DSBL
            [format] => GPT: 4KiB-aligned
            [rotational] => 1
            [spundown] => 0
            [temp] => 25
            [numReads] => 0
            [numWrites] => 0
            [numErrors] => 0
            [type] => Data
            [color] => red-on
            [spindownDelay] => 15
            [spinupGroup] => 
            [deviceSb] => md4
            [idSb] => ST10000NE0008-2PL103_ZS50728B
            [sizeSb] => 9766436812
            [luksState] => 0
            [comment] => 
            [exportable] => no
            [fsType] => xfs
            [fsStatus] => Mounted
            [fsColor] => yellow-on
            [fsSize] => 9764349900
            [fsFree] => 973677136
            [fsUsed] => 8790672764
            [warning] => 
            [critical] => 
        )

 

logs/syslog.txt

Aug 31 19:33:45 Jukes-Server kernel: scsi 6:0:4:0: Direct-Access     ATA      ST10000NE0008-2P EN02 PQ: 0 ANSI: 6
Aug 31 19:33:45 Jukes-Server kernel: scsi 6:0:4:0: SATA: handle(0x000c), sas_addr(0x4433221106000000), phy(6), device_name(0x0000000000000000)
Aug 31 19:33:45 Jukes-Server kernel: scsi 6:0:4:0: enclosure logical id (0x50030057015e81c0), slot(5) 
Aug 31 19:33:45 Jukes-Server kernel: scsi 6:0:4:0: atapi(n), ncq(y), asyn_notify(n), smart(y), fua(y), sw_preserve(y)
Aug 31 19:33:45 Jukes-Server kernel: scsi 6:0:4:0: qdepth(32), tagged(1), scsi_level(7), cmd_que(1)
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: Attached scsi generic sg11 type 0
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: Power-on or device reset occurred
Aug 31 19:33:45 Jukes-Server kernel: end_device-6:4: add: handle(0x000c), sas_addr(0x4433221106000000)
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] 19532873728 512-byte logical blocks: (10.0 TB/9.10 TiB)
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] 4096-byte physical blocks
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] Write Protect is off
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] Mode Sense: 7f 00 10 08
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] Write cache: enabled, read cache: enabled, supports DPO and FUA
Aug 31 19:33:45 Jukes-Server kernel: sdl: sdl1
Aug 31 19:33:45 Jukes-Server kernel: sd 6:0:4:0: [sdl] Attached SCSI disk
...
Aug 31 19:34:17 Jukes-Server emhttpd: shcmd (67): mkdir -p /mnt/disk4
Aug 31 19:34:17 Jukes-Server emhttpd: shcmd (68): mount -t xfs -o noatime /dev/md4 /mnt/disk4
Aug 31 19:34:17 Jukes-Server kernel: XFS (md4): Mounting V5 Filesystem
Aug 31 19:34:17 Jukes-Server kernel: XFS (md4): Ending clean mount
Aug 31 19:34:17 Jukes-Server kernel: xfs filesystem being mounted at /mnt/disk4 supports timestamps until 2038 (0x7fffffff)
Aug 31 19:34:17 Jukes-Server emhttpd: shcmd (69): xfs_growfs /mnt/disk4
Aug 31 19:34:17 Jukes-Server root: meta-data=/dev/md4               isize=512    agcount=10, agsize=268435455 blks
Aug 31 19:34:17 Jukes-Server root:          =                       sectsz=512   attr=2, projid32bit=1
Aug 31 19:34:17 Jukes-Server root:          =                       crc=1        finobt=1, sparse=1, rmapbt=0
Aug 31 19:34:17 Jukes-Server root:          =                       reflink=0    bigtime=0 inobtcount=0
Aug 31 19:34:17 Jukes-Server root: data     =                       bsize=4096   blocks=2441609203, imaxpct=5
Aug 31 19:34:17 Jukes-Server root:          =                       sunit=0      swidth=0 blks
Aug 31 19:34:17 Jukes-Server root: naming   =version 2              bsize=4096   ascii-ci=0, ftype=1
Aug 31 19:34:17 Jukes-Server root: log      =internal log           bsize=4096   blocks=521728, version=2
Aug 31 19:34:17 Jukes-Server root:          =                       sectsz=512   sunit=0 blks, lazy-count=1
Aug 31 19:34:17 Jukes-Server root: realtime =none                   extsz=4096   blocks=0, rtextents=0

 

system/df.txt

/dev/md4        9.1T  8.2T  929G  91% /mnt/disk4

 

system/lsscsi.txt

[6:0:4:0]    disk    ATA      ST10000NE0008-2P EN02  /dev/sdl   /dev/sg11
  state=running queue_depth=32 scsi_level=7 type=0 device_blocked=0 timeout=30
  dir: /sys/bus/scsi/devices/6:0:4:0  [/sys/devices/pci0000:00/0000:00:1b.4/0000:03:00.0/host6/port-6:4/end_device-6:4/target6:0:4/6:0:4:0]

 

Für mich sieht das alles in Ordnung aus und Fehler, die sich auf disk4, md4, sg11 oder sdl beziehen, kann ich keine finden. Ich mein man sieht, dass die Platte auf Rot steht, aber ich finde keinen Grund?!

 

Es scheint sogar ein Prozess zu geben, der auf die Platte zugreift:

root     29067  0.0  0.0   2648   724 ?        S    19:35   0:00  |   \_ /bin/timeout 150 find /mnt/disk4/Backups -noleaf -maxdepth 9
root     29072  1.0  0.0   4192  2364 ?        D    19:35   0:00  |       \_ find /mnt/disk4/Backups -noleaf -maxdepth 9

 

Was passiert denn wenn du im Terminal folgendes eingibst?

du -smh /mnt/disk4/*

 

 

Link to comment
36 minutes ago, jj1987 said:

Ich meine du musst unter Main dann noch bestätigen dass die Parity in Ordnung ist und danach kannst du das Array wieder starten. Du solltest dir aber dann auch sicher sein dass die Daten in Ordnung sind, wie lang ist der letzte Parity Check her?

Der letzte Parity Check war vor 2 Wochen mit einem Error. Und wie meinst du das mit "bestätigen"? Das Array ist ja sogar online. Nur die eine Platte ist disabled.

 

23 minutes ago, mgutt said:

Was passiert denn wenn du im Terminal folgendes eingibst?

du -smh /mnt/disk4/*

Bei dem Befehl zeigt mir das Terminal alle Ordner der Platte an und wie groß diese sind.

 

Was kann ich machen, damit die Disk wieder läuft?

Link to comment
6 minutes ago, Jukes said:

Ne, leider nicht. Also soll ich es wagen die Disk einfach zu "rebuilden"? 

 

Deine Optionen:

a) Hätte man ein Backup, könnte man einen 1:1 Abgleich durchführen um korrupte Daten aufzudecken

b) die Platte sichern und einen Rebuild durchführen. Danach mit dem Backup einen 1:1 Abgleich durchführen.

c) einen Rebuild machen und beten das alles passt

 

@ich777 Wenn eine Disk emuliert wird, ist sie dann über /mnt/diskX erreichbar? Also wie käme man bei einer Emulation an die realen Daten der Platte?

Link to comment
20 minutes ago, mgutt said:

@ich777 Wenn eine Disk emuliert wird, ist sie dann über /mnt/diskX erreichbar? Also wie käme man bei einer Emulation an die realen Daten der Platte?

Ja genau, die fehlende Festplatte müsste trotzem noch mit /mnt/diskX emuliert werden und somit sollte man die Daten kopieren können.

 

Aber wäre ein rebuild hier nicht besser?

Link to comment
1 hour ago, ich777 said:

die fehlende Festplatte müsste trotzem noch mit /mnt/diskX emuliert werden

Mich interessierte, wie man an die Originaldaten der Platte kommt. Also Array, stoppen, mit UD mounten und dann ein Backup machen. Die Idee wäre den Rebuild mit dem Backup abzugleichen, um bewerten zu können ob und welche Daten von einem evtl Verlust betroffen sind.

Link to comment

So! Ich hatte leider keinen Platz mehr, um die Daten auf einer anderen Festplatte zu speichern. Also habe ich einfach einen Rebuild gemacht, der auch fantastisch funktioniert hat. Keine Probleme.

 

Jetzt habe ich den Server neugestartet und ES IST SCHON WIEDER PASSIERT! Richtig blöd. Disk 4 - disabled.

 

Ich hänge jetzt die Diagnose-Daten an, ohne den Server erneut neuzustarten. Vielleicht seht ihr ja, was das Problem sein könnte.

jukes-server-diagnostics-20210903-1702.zip

Link to comment
14 hours ago, Jukes said:

Ich hänge jetzt die Diagnose-Daten an, ohne den Server erneut neuzustarten. Vielleicht seht ihr ja, was das Problem sein könnte.

Ich sehe wieder nichts. Hast du mirror syslog nicht aktiviert?

https://forums.unraid.net/topic/99393-häufig-gestellte-fragen/?do=findComment&comment=1008640

 

 

Aktiviere die Option.

 

Was ich dann machen würde: ich würde mir eine neue Platten kaufen. Dann würde ich das Array runterfahren und Disk 4 mounten und ein Backup davon machen. Danach wieder Disk 4 rebuilden lassen und den Fehler provozieren. Diesmal aber dank mirror nachvollziehen was da los war.

 

Schlussendlich klingt es für mich aber nach einem Totalausfall der Verbindung, da die HDD im Smart keine CRC Fehler geloggt hat. Also evtl:

- defekte Stromversorgung (Wackelkontakt?!)

- defekte Datenverbindung (Kabel, Buchse, etc)

 

Ist die HDD an einer "besonderen" SATA Buchse, also andere Karte oder ist auf dem Board ein separater SATA Controller verbaut?

Link to comment

Ohh nein, sorry! Hast recht, das hätte ich aktivieren sollen. Ich werde es sofort machen un deinem Plan folgen! 

 

Die Platte ist jetzt mit zwei verschiedenen Sata-Kabeln ausgefallen. Sie hängt an einer SAS-LSI-Karte. 

 

Danke für die Hilfe, ich werde berichten, sobald die neue Platte angekommen ist. 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.