Array SMART fehlerhaft


FrankWG

Recommended Posts

Guten Abend,

 

ich hatte bis gestern nur eine Datenfestplatte (ohne erkennbare SMART Fehler) und keine für die Parität im Array. Über Nacht habe ich dann die Überprüfung / Paritätserstellung gestartet. Leider ist dabei folgendes rausgekommen:

 

check1.jpg.2dfde0257a970c449c60c355532a7f49.jpg

 

Dazu wird mir bei der Datenfestplatte bei SMART "Fehler" angezeigt. Bei der neu hinzugefügte Festplatte für die Parität wird mir unter SMART "OK" angezeigt.

 

Da ich so irritiert von den vielen Fehlern war (die Festplatte lief seit 3-4 Jahren in meinem alten NAS (kein 24/7 Betrieb) fehlerfrei) startete ich heute morgen erneut die Überprüfung und es kam folgendes raus:

 

check2.jpg.f7628ed35f34a8114c44bced21adda29.jpg

 

Kann mir einer sagen, was das jetzt konkret zu bedeuten hat? Kann ich die Festplatte weiter nutzen?

 

Hier ist noch eine Übersicht der Festplatte mit Fehlern. Leider kann ich daraus nichts ableiten und verstehe auch sehr wenig davon.

check2.1.thumb.jpg.f432abf71b9c5387690c104414ce9f8f.jpg

 

Kann mich einer Aufklären wie gut oder schlecht es um meine Festplatte steht und ob ich irgendwas machen kann um die Situation zu verbessern?

 

Vielen vielen Dank für die tolle Unterstützung hier im Forum!

 

Freundliche Grüße und noch einen schönen Abend

Frank

 

 

Link to comment
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     18346         -
# 2  Short offline       Completed: read failure       90%     18333         -
# 3  Short offline       Completed: read failure       90%     18333         -
# 4  Short offline       Completed: read failure       90%     18333         -

 

ATA Error Count: 47 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 47 occurred at disk power-on lifetime: 18338 hours (764 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 53 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 40 ff ff ff ef 00      20:13:38.889  READ DMA EXT
  25 00 40 ff ff ff ef 00      20:13:38.307  READ DMA EXT
  25 00 40 ff ff ff ef 00      20:13:38.303  READ DMA EXT
  35 00 40 ff ff ff ef 00      20:13:38.301  WRITE DMA EXT
  35 00 40 ff ff ff ef 00      20:13:38.294  WRITE DMA EXT

Error 46 occurred at disk power-on lifetime: 18338 hours (764 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 53 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 40 ff ff ff ef 00      20:13:35.223  READ DMA EXT
  25 00 40 ff ff ff ef 00      20:13:35.205  READ DMA EXT
  47 00 01 13 00 00 a0 00      20:13:35.204  READ LOG DMA EXT
  47 00 01 00 00 00 a0 00      20:13:35.204  READ LOG DMA EXT
  ef 10 02 00 00 00 a0 00      20:13:35.204  SET FEATURES [Enable SATA feature]

Error 45 occurred at disk power-on lifetime: 18338 hours (764 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 53 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 40 ff ff ff ef 00      20:13:30.849  READ DMA EXT
  25 00 40 ff ff ff ef 00      20:13:30.847  READ DMA EXT
  35 00 40 ff ff ff ef 00      20:13:30.845  WRITE DMA EXT
  35 00 40 ff ff ff ef 00      20:13:30.842  WRITE DMA EXT
  b0 d1 01 01 4f c2 00 00      20:13:30.680  SMART READ ATTRIBUTE THRESHOLDS [OBS-4]

Error 44 occurred at disk power-on lifetime: 18338 hours (764 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 53 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 40 ff ff ff ef 00      20:13:27.699  READ DMA EXT
  ec 00 01 00 00 00 00 00      20:13:27.696  IDENTIFY DEVICE
  47 00 01 13 00 00 a0 00      20:13:27.696  READ LOG DMA EXT
  47 00 01 00 00 00 a0 00      20:13:27.695  READ LOG DMA EXT
  ef 10 02 00 00 00 a0 00      20:13:27.695  SET FEATURES [Enable SATA feature]

Error 43 occurred at disk power-on lifetime: 18338 hours (764 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 53 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 40 ff ff ff ef 00      20:13:25.231  READ DMA EXT
  25 00 40 ff ff ff ef 00      20:13:25.213  READ DMA EXT
  47 00 01 13 00 00 a0 00      20:13:25.212  READ LOG DMA EXT
  47 00 01 00 00 00 a0 00      20:13:25.212  READ LOG DMA EXT
  ef 10 02 00 00 00 a0 00      20:13:25.212  SET FEATURES [Enable SATA feature]

 

 

Vielleicht hilft das jemanden die Situation noch besser einzuschätzen.

 

Vielen Dank schon mal. 🙂

Link to comment
1 hour ago, FrankWG said:

Kann mich einer Aufklären wie gut oder schlecht es um meine Festplatte steht und ob ich irgendwas machen kann um die Situation zu verbessern?

 

Real. Sec. Cnt 1384
Reported uncorrect 47
Current Pending 8

 

Um es mal stark zu vereinfachen:

Wenn Du da Daten drauf hast, die für Dich wichtig sind, solltest Du spätestens jetzt noch herunter kopieren was geht.

Und ja, es besteht die Gefahr, daß jetzt schon Daten nicht mehr im unbeschädigten Originalzustand ausgelesen werden können.

 

Die Datenfestplatte hat für sich selbst sehr viele Events verzeichnet (bisher wohl 1384) in denen es Sektoren neu zuornden musste, weil es die integrität der betreffenden Sektoren als nicht mehr zuverlässig erkannt hat.

Das kann so bleiben, dann könnte die festplatte noch Jahre so weiter laufen, oder es werden mehr und die festplatte liegt im sterben.

verläßlich kann man das erst sagen, wenn man die Werte länger im Auge behält und diesich nicht oder eben doch verändern.

Aber die Chance ist groß, daß bei so vielen fehlern die Werte (schnell) weiter ansteigen werden.

Aktuell sagt dei festplatte ja auch aus, das sie zur Zeit 8 weitere Sektoren 'im Auge' haut, die ebenfalls fraglich sind.

Das deutet sehr darauf hin, daß die Festplatte so langsam aber sicher erkannt hat, dass es ihr schlecht geht.

https://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology#Übliche_Parameter

 

Link to comment

Zum Thema Integrität: Da sind in jedem Fall Daten korrupt, denn die Paritätsprüfung produziert nur dann Fehler, wenn sie selbst andere Daten als Disk 1 enthält. Die "Ironie" ist, dass man durch die Prüfung und Korrektur, die korrupten Daten auf die Parität übernommen hat. Der einzige Trost ist, dass "nur" 8 Sektoren (jeweils 512 Bytes) verloren gegangen sind (Offline Uncorrectable). Welche Dateien allerdings betroffen sind, ist unbekannt, da wir die Sektoren IDs nicht gesagt bekommen. Eine Sache, die ich bei SMART ziemlich ätzend finde.

 

Allerdings kannst du in den syslogs meine ich sehen, welche Sektoren bei der Paritätskorrektur geändert wurden.

 

Poste bitte mal deine Diagnostics

Link to comment
9 hours ago, mgutt said:

Poste bitte mal deine Diagnostics

 

Meinst du die komplette zip? Vielen Dank für deine Mühe.

 

Könnt ihr mir noch erklären warum die Fehler von der ersten zur zweiten Überprüfung so stark gesunken sind?

 

Wenn ich jetzt eine neue Festplatte bestelle wie ist dann der schnellste Weg mein Problem zu lösen. Defekte Platte raus - neue Platte rein - und den Rest macht Unraid automatisch?

 

Edited by FrankWG
Link to comment
4 minutes ago, FrankWG said:

Könnt ihr mir noch erklären warum die Fehler von der ersten zur zweiten Überprüfung so stark gesunken sind?

Du solltest dich eher fragen warum beim zweiten Check erneut Fehler aufgetaucht sind. Das heißt nämlich, dass die Platte beim zweiten Check Fehler hatte, die beim ersten mal noch nicht da waren. Fazit: Die Platte geht immer weiter kaputt.

 

 

Link to comment
6 minutes ago, mgutt said:

Du solltest dich eher fragen warum beim zweiten Check erneut Fehler aufgetaucht sind. Das heißt nämlich, dass die Platte beim zweiten Check Fehler hatte, die beim ersten mal noch nicht da waren. Fazit: Die Platte geht immer weiter kaputt.

 

Oh...verdammt. Dachte das ist eher ein gutes Zeichen.

 

Ich werde wohl wirklich in den sauren Apfel beißen müssen und eine neue kaufen. Kann ich dann die neue einfach gegen die defekte ersetzen und Unraid stellt dann wieder die Parität her? Oder hab ich da auch einen Denkfehler. Ansonsten würde ich den Sinn der Parität nicht verstehen...

Link to comment
4 minutes ago, FrankWG said:

Kann ich dann die neue einfach gegen die defekte ersetzen und Unraid stellt dann wieder die Parität her?

Jo. Eventuell solltest du den Server solange abgeschaltet lassen, damit sich die Daten auf der Parität nicht noch weiter verändern.

 

 

Link to comment
6 minutes ago, mgutt said:

Jo. Eventuell solltest du den Server solange abgeschaltet lassen, damit sich die Daten auf der Parität nicht noch weiter verändern.

 

Ich danke dir für deine Meinung und Hilfe!

 

PS: Natürlich auch vielen Dank an DataCollector! 

 

PPS: Wie kann man hier eigentlich Benutzer markieren? Hab es irgendwie noch nicht rausgefunden.. 

Edited by FrankWG
Link to comment
1 hour ago, FrankWG said:

PPS: Wie kann man hier eigentlich Benutzer markieren? Hab es irgendwie noch nicht rausgefunden.. 

Ich verstehe nicht, was Du machen und damit erreichen willst.

 

Wenn Du willst, dass jemand bestimmtes Deine Nachricht (auch) gemeldet bekommt, musst Du ein @ Zeichen schreiben, dann den Nutzernamen, dabei wird Dir eine Liste der bekannten Nutzernamen angezeigt und da klickst Du den passenden zusätzlich an. Dieser wird dann je nach seiner präferierten EInstellung informiert.

Ist es das, was Du suchst?

 

Link to comment
7 hours ago, DataCollector said:

Wenn Du willst, dass jemand bestimmtes Deine Nachricht (auch) gemeldet bekommt, musst Du ein @ Zeichen schreiben, dann den Nutzernamen, dabei wird Dir eine Liste der bekannten Nutzernamen angezeigt und da klickst Du den passenden zusätzlich an. Dieser wird dann je nach seiner präferierten EInstellung informiert.

Ist es das, was Du suchst?

@DataCollector Ja genau diese Funktion meinte ich 🙂 Danke dir!

Link to comment
19 minutes ago, warp760 said:

Also ist es besser das nicht zu aktivieren?

Wenn du ein RAID1 hast, könnte man tatsächlich darüber nachdenken. Bei mehr als einer Disk im Array bringt das allerdings nichts, weil bei Defekt einer HDD ja alle anderen HDDs gebraucht werden. Wenn jetzt also eine defekte Sektoren hat, wird der Rebuild einer anderen komplett defekten HDD mit korrupten Daten passieren.

 

Fazit: Da hilft nur eine regelmäßige Integritätsprüfung mit File Integrity Plugin + Wiederherstellung aus separatem Backup.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.