Jump to content

Unsicher über UnRAID...


Mutzli
Go to solution Solved by Ford Prefect,

Recommended Posts

Hallo zusammen

 

vielleicht könnt Ihr mir weiterhelfen...

 

Ausgangslage:

um bei einem Ausfall meiner knapp 10-jährigen Synology vorbereitet zu sein, habe ich mit diversen DIY-NAS experimentiert und bin schlussendlich bei UnRAID gelandet.

 

Vor rund einem Jahr habe ich also ein UnRAID-System gebastelt:

- Gehäuse: DS380

- Mainboard: Supermicro X11SCL-IF

- CPU: i3-9100

- Memory: 16 GB (none ECC)

- Harddisk: 8x Seagate Ironwolf 6 TB, davon 2 Parity (ST6000VN***)

- SATA Controller: Broadcom / LSI SAS2008

- UnRAID: bis vor kurzem 6.11.5, jetzt 6.12.0

 

Jetzt wollte ich meine Daten (~20 TB) vom Synology auf den UnRAID-Server verschieben und UnRAID als das Haupt-NAS einsetzen.

 

Ich habe die Daten also vom Synolgy auf das UnRAID-System verschoben (Windows) und sie noch etwas aufgeräumt (Dynamix File Manager).

Das auch als Vorbereitung auf einen regelmässigen (möglichst kleinen) Backup mit rsync.

Zwischendurch habe ich den Uprade auf die Version 6.12 gemacht, um ev. auch auf ZFS umsteigen zu können.

 

Das Problem ist letzte Woche, nach dem Umstieg auf 6.12, passiert: plötzlich sind 2 der Daten-HDD vom UnRAID wegen Lese-Fehler disabled worden.

 

Die Daten auf einem Ersatz-HDD wurden zuerst wieder hergestellt, aber das Laufwerk nach rund 6h wegen (diesmal) Schreib-Fehler auch disabled.

Eigentlich würde ich jetzt auf den SATA-Controller schliessen. Aber wieso hat der bisher ohne Probleme gearbeitet?

 

Frage 1:

Kann ich die HDD jetzt im UnRAID testen lassen, oder muss ich sie ausbauen und auf dem Windows-Rechner testen?

Bin etwas unsicher ob die HDD wirklich defekt ist. Habe sie schliesslich vor knapp 2 Monaten gekauft...


Frage 2:

Gibt es eine der Komponenten welche die Probleme verursachen könnte?

Ist UnRAID 6.12 unzuverlässig? Immerhin hat 6.10/6.11.5 ein Jahr lang problemlos funktioniert...

 

Frage3:

Ich war zuerst zuversichtlich wegen dem UnRAID-Server.

Jetzt weiss ich aber nicht, ob ich doch auf der Synology-Schiene bleiben soll; in rund 10 Jahren wurde ich dort noch nie enttäuscht.

Der UnRAID-Server hat eigentlich rund ein Jahr zuverlässig funktioniert, jetzt aber (plötzlich) Probleme gemacht.

Was meint Ihr dazu? Wie sind eure Erfahrungen?

 

Gruss

Guido

 

 

Link to comment
  1. Vor 2 Monaten .. ja und? Wenn Festplatten aussteigen, dann entweder recht früh, weil sich der Defekt zeitnah bemerkbar macht. Ooooder dann wenn sie alt sind und langsam am Verschleiß sterben. Je früher also der Defekt auftritt umso besser .. denn dann weißt direkt wo du an der Platte bist und kannst die Tauschen. 

    Ich würde die Platte rausnehmen um se am Windows zu testen ... da kannst ja auch das Tool von Seagate für nutzen. 
    Und du schließt auch gleich mal das SATA Kabel aus. 
     
  2. Pauschal jetzt nicht. 
     
  3. Festplatten können dir auch in ner Synology aussteigen. 
Link to comment
  • Solution
6 hours ago, Mutzli said:

Das Problem ist letzte Woche, nach dem Umstieg auf 6.12, passiert: plötzlich sind 2 der Daten-HDD vom UnRAID wegen Lese-Fehler disabled worden.

 

Die Daten auf einem Ersatz-HDD wurden zuerst wieder hergestellt, aber das Laufwerk nach rund 6h wegen (diesmal) Schreib-Fehler auch disabled.

Eigentlich würde ich jetzt auf den SATA-Controller schliessen. Aber wieso hat der bisher ohne Probleme gearbeitet?

Welche Fehler sind das genau? Sieht man was in den Logs?

Wie alt waren die betroffenen Disks?..und die auf welche die Wiederherstellung lief?

Wie waren die Temperaturen der HDDs?

Ein LSI 2008er Controller ist älter als 5 Jahre (ich habe welche, die sind 12 Jahre im Einsatz) oder ein China Fake....woher war der, neu oder refurbished aus einem echten Server, von einem guten Verwerter/renommierten Verkäufer?

Was für Kabel sind da am Start?

 

6 hours ago, Mutzli said:

 

Frage 1:

Kann ich die HDD jetzt im UnRAID testen lassen, oder muss ich sie ausbauen und auf dem Windows-Rechner testen?

Bin etwas unsicher ob die HDD wirklich defekt ist. Habe sie schliesslich vor knapp 2 Monaten gekauft...

Du kannst die unassigned Devices Plugins installieren. Da ist dann auch das preclear dabei...

Ich mache bei jeder neuen HDD ein preclear (1x Durchlauf, write/verify)...bei einer gebrauchten mache ich Minimum 2x ... es kommt durchaus vor, das neue Disks schnell kaputt gehen. Daher eben preclear. Wenn sie das überleben ist die Chance gut.

 

7 hours ago, Mutzli said:

Der UnRAID-Server hat eigentlich rund ein Jahr zuverlässig funktioniert, jetzt aber (plötzlich) Probleme gemacht.

Was meint Ihr dazu? Wie sind eure Erfahrungen?

Das ist kein unraid Problem....das Upgrade zur selben Zeit hat nix zu bedeuten/ist höchstens schlechtes Karma....Ursache ist wahrscheinlich die hohe Last durch die Transfers. Eine oder mehrere Komponenten haben halt aufgegeben. HDDs und oder Controller, oder auch das NT bzw Stromversorgung/Adapter zur Backplane.

Ursachen können sein, zu hohe Temperaturen z.B. auch durch Lüfterausfall und es meldet sich ne kalte Lötstelle/eine schlechte Verbindung...Pech mit der Hardware, kommt uch bei Markenware vor oder China Fakes...die geben meist nach 1 Jahr Einsatz auf.

Ich habe unraid Server mit jahrelanger Uptime...

Du hat einfach Pech gehabt.

Link to comment

Schon mal Einiges zusammen gekommen!

 

 

1) bei der einen Platte (Disk 2) habe ich im Log nicht geschaut, aber waren gemäss "Main" über 2k Lesefehler bis sie dann disabled wurde.

   Bei der zweiten Platte (Disk 5) waren es allesamt Lesefehler der Art:

   "Jul 11 14:27:54 Sonne kernel: I/O error, dev sdf, sector 264 op 0x0:(READ) flags 0x80700 phys_seg 12 prio class 2"

 

2) Den LSI2008 habe ich bei Amazon bestellt, kam aus Frankreich soweit ich mich erinnere, schien damals neu zu sein.

   Kabel sind vom Typ "SAS zu 4x SATA"; waren keine Billigware aus China. ;)

 

3) Das mit den Unassigned Devices schau ich mir nochmals an.

 

4) Temps der HDD's waren immer so um 35°, jetzt im Sommer manchmal auch kurzfristig knapp über 40° (41° bis 43°). Sollte also noch kein Problem sein, oder?

   Anfangs hatte ich (alles Seagate) die alten 3 TB HDD's aus den Synology; für die ersten Tests.

   Die wurden im Verlauf des letzten Jahres aber alle durch neue (also kein Jahr alt) 6 TB ersetzt (aus verschiedenen Quellen gekauft).

   Vor rund 2 Monaten habe ich dann die letzten 6 TB gekauft und eingebaut.

 

5) Das mit den hohen Lasten ist eben die Frage... Das haben die Synology aber auch schon problemlos durchgemacht.

   Klar stieg da im Verlauf der Jahre auch mal die eine oder andere aus. Aber nie 2 (fast) gleichzeitig.

Link to comment
11 minutes ago, Mutzli said:

   "Jul 11 14:27:54 Sonne kernel: I/O error, dev sdf, sector 264 op 0x0:(READ) flags 0x80700 phys_seg 12 prio class 2"

 

...was sagen denn die SMART-Werteder Disks? Gehen die defekten Sektoren hoch?

Ich würde auch erstmal auf den LSI tippen...

Die 2008er brauchen gut Strom und werden warm...Wie viele Disks hast Du schon am Start? Kannst Du die auf das MB umziehen (das hat zwar nur 4x SATA, aber zum Test)?

Die Temperaturen der Disks sind OK.

 

15 minutes ago, Mutzli said:

Das haben die Synology aber auch schon problemlos durchgemacht.

   Klar stieg da im Verlauf der Jahre auch mal die eine oder andere aus. Aber nie 2 (fast) gleichzeitig.

...aber mit anderen Disks.

Link to comment

Also ich kann nur sagen, dass ich mit den Ironwolfs von Seagate mäßig zufrieden bin. 

Meine alte 4TB Platte war schneller runter, als die Seagate Desktop HDDs. 

 

Und auch eine von vier neuen 8TB Platten ist recht früh total ausgefallen. 
Eine andere hatte recht früh Lesefehler ... was sich aber nach Kabeltausch und einem langen Self-Check über die Seagate Software erledigt hat.  
Was von beiden da nun geholfen hatte, weiß ich bis heute nicht. 

Muss aber auch zugeben, dass ich mittlerweile keine NAS HDDs mehr hole ... beim Unraid isses halt eher egal. 😅 

Link to comment
10 hours ago, Mutzli said:

Was sagen "Pre-Fail" oder "Old age" aus?

Das ist kein gemessener Wert / Status der Platte, sondern charakterisiert den Typ des SMART-Wertes.

 

10 hours ago, Mutzli said:

Hier mal die SMART-Werte der Disk2:

Die ist OK...keine aktuellen Bad  oder pending Sektors, aber UDMA/CRC Fehler - > Kabel und/oder Kontroller oder Stromversorgung , wie schon oben vermutet.  

Link to comment

Update 1: Disk2 scheint nach dem Data-Rebuild wieder normal zu sein. Hat wenige Read's, viele Writes ;) und 0 Error.

 

Werde jetzt mit dem Script von ...  disk6 zero'en (ist eh leer) und dann damit Disk5 ersetzen. Mal sehen was raus kommt...

 

 

2 hours ago, Ford Prefect said:

Die ist OK...keine aktuellen Bad  oder pending Sektors, aber UDMA/CRC Fehler - > Kabel und/oder Kontroller oder Stromversorgung , wie schon oben vermutet.  

Könnten noch vom MZHOU Controller ASM575+1166  LSI MegaRAID SAS 9211-8i stammen; habe ihn dann, nach Problemen, durch den aktuellen LSI2008 ersetzt.

 

1 hour ago, Sacred said:

Auf was hast du denn deinen Smart-Meldewert stehen? 
Roh oder Normalisiert? 

Was ist der Unterschied? Wo kann ich das einstellen?

 

Das mit den Temp's könnte Sinn machen: Sommer, LSI2008 wird eh schon heiss, und habe die Daten (0.5TB) UnRAID intern verschoben (= lesen und schreiben).

Könnt Ihr mir einen guten und leisen Slot-Lüfter nennen? Möchte damit den LSI2008 kühlen.

Edited by Mutzli
Link to comment
1 hour ago, Mutzli said:

Könnt Ihr mir einen guten und leisen Slot-Lüfter nennen? Möchte damit den LSI2008 kühlen.

Slot-Lüfter sind nicht leise.

Ausserdem, da Deine Disks angemessen kühl bleiben, ist das evtl. nur eine Zonen-Problem in Deinem Gehäuse.

ich würde mal schauen, ab nicht ein kleiner, flacher 40 oder 50mm auf den Kühlkörper des Controllers passt...da müsste eine einfache Blechschraube zwischen die Lamellen reichen, da der Lüfter kein signifikantes Drehmoment entwickelt.

Sowas, hat 9db: https://geizhals.de/noiseblocker-nb-blacksilentfan-xm1-a409248.html?hloc=de 

 

 

Link to comment
8 hours ago, Mutzli said:

Was ist der Unterschied? Wo kann ich das einstellen?

 

Einstellungen => Datenträger-Einstellungen

Quote

SMART-Benachrichtigungen werden entweder bei einem steigenden ROH-Wert des Attributs oder bei einem sinkenden NORMALISIERTEN Wert, der einen vordefinierten, vom Hersteller festgelegten Schwellenwert erreicht, generiert.

In diesem Abschnitt werden die globalen Einstellungen für alle Datenträger festgelegt. Es ist möglich, Einstellungen für einzelne Platten vorzunehmen.

 

Dazu mehr Hintergrundinfos.

Spoiler

https://www.gieseke-buch.de/windows/smart-festplatten-interpretieren
 

RAW_VALUE bzw. Rohwerte
Bei den bisherigen drei Werten handelt es sich jeweils um normalisierte Werte, die zum Zwecke der besseren Vergleichbarkeit aus den eigentlichen übermittelten Daten gebildet werden. Der Rohwert hingegen gibt genau diese übermittelte Information wieder. Diese Daten können für eine statistische Erfassung interessant sein, um zu erfassen, wie sich bestimmte Rohwerte im Laufe der Zeit entwickeln. Ansonsten sollte man ihre Aussagekraft nicht überbewerten, da sie zum einen herstellerspezifisch sind und zum anderen nur für Experten eine echte Aussagekraft haben. Ein Rohwert von 15 Lesefehlern etwa besagt nichts, wenn man nicht weiß, wie häufig Lesefehler im regulären Betrieb einer Festplatte üblicherweise auftreten.

 

 

Link to comment

Update 2: alle HDD wieder voll OK, auch disk5 (ehemals disk6) wieder da nach Data-Rebuild.

Nächster Schritt ist erstmals eine Kühlung für den LSI 2008.

 

Dachte zuerst dass er durch das Netzteil auch etwas Kühlung bekommt. Aber der Lüfter vom Netzteil dreht im Normalfall überhaupt nicht...

Link to comment
  • 5 weeks later...

So, unRAID ist aufgerüstet und die LSI 2008 mit Kühler (40x20) versehen.

Temp des LSI 2008 geht auch nach längerer Kopieraktion nicht über 35° auf dem Kühlkörper (sagt die Laserpistole mindestens ...).

 

Bin aber am überlegen, ob ich den Server in einen Node 304 transferieren soll.

Das Silverstone DS380 ist doch etwas gar klein und unter all den Kabeln dürfte auch der Luftstrom leiden.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...