Server crashed, keine Ahnung wieso


XxX4V3R
Go to solution Solved by XxX4V3R,

Recommended Posts

Neuer Unraidbuild. Soweit so gut, letzte Woche den ersten unexpected reboot bekommen.
Full parity check, dann weiter mit der "Erstbetankung" von einer anderen NAS->mitten im Kopiervorgang wieder startet sich der Server neu.


Memetest 24h laufen lassen. Alles "passed". In der Wohnung geschaut: war kein Powerloss oder "Brownout". 

 

OK. Syslog auf Flash gelegt, gibt meiner Meinung nach auch keine Auskunft, warum er mir beim darauf folgenden Parity-Check abgeschmiert ist. Wo könnte der Hase im Pfeffer liegen? Sry neu hier, erster "Build".
 

Ich weiß gar nicht wo ich anfangen soll. Die SAS-Kabel sind komplett neu, neues Netzteil kommt morgen, wobei ich das eigentlich mir hätte sparen können, aber bin halt nicht vom Fach...

syslog-previous syslog chentron-diagnostics-20240229-1546.zip

Edited by XxX4V3R
Link to comment

Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie.

Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend 

Link to comment
2 minutes ago, XxX4V3R said:

Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie.

Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend 

 

Reduziere erst einmal alle Komponenten.

Erst einmal nur Ram, Mainboard, CPU belassen und system starten und testen (kannst ja unraid vom USB Stick booten und mal schauen ob/wie lange es läuft).

Nebenbei gelegentlich hängen Crashes mit den USB Stick zusammen. defekte Dateien sind ein möglicher Punkt. Vielleicht testweise auch mal einen anderen Stick ausprobieren?

 

Link to comment

solange ich das array nicht hochfahre ist alles in ordnung.
defekte dateien? d.h. ich habe bei meiner erstbetankung eventuell eine datei rübergeschoben an dem sich das ganze unraid erschießt und das array den kompletten server in den reboot zwingt?

oh gott das wird ja immer abstruser.
also ist das wirklich ein thema? kann das vorkommen? ich habe/wollte die dateiein von meinem 40tb ausutor datengrab rübertransferieren. ein paar tb sind schon auf dem unraid...

Link to comment

Eine deiner Festplatten (ST18000NM000J-2TV103) hat in den Smart Werten sehr hohe Werte bei den Fehlerraten. Mit der Platte stimmt definitiv was nicht

 

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   076   064   044    -    37673480
  3 Spin_Up_Time            PO----   090   090   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    17
  5 Reallocated_Sector_Ct   PO--CK   100   100   010    -    0
  7 Seek_Error_Rate         POSR--   079   060   045    -    80588272
  9 Power_On_Hours          -O--CK   100   100   000    -    256
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    16
 18 Unknown_Attribute       PO-R--   100   100   050    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   100   000    -    0
190 Airflow_Temperature_Cel -O---K   075   063   000    -    25 (Min/Max 14/28)
192 Power-Off_Retract_Count -O--CK   100   100   000    -    15
193 Load_Cycle_Count        -O--CK   100   100   000    -    27
194 Temperature_Celsius     -O---K   025   040   000    -    25 (0 14 0 0 0)
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
200 Multi_Zone_Error_Rate   PO---K   100   100   001    -    0
240 Head_Flying_Hours       ------   100   100   000    -    255 (232 238 0)
241 Total_LBAs_Written      ------   100   253   000    -    51453398249
242 Total_LBAs_Read         ------   100   253   000    -    219259610467

 

Link to comment

Wenn mal bei "Raw_Read_Error_Rate" 3-4 oder so steht und nicht hoch geht, würde ich mir garkeine Sorgen machen, aber 37673480 bei gerademal 256h Laufzeit ist nicht ok. Je nachdem wie man die Platte testet, wird es vielleicht garnicht direkt auffallen. Formatieren und Daten drauf kopieren mag vielleicht noch funktionieren, beim Lesen der Daten wird man es dann aber sicherlich merken. "recertified" wird denke mal nen Rückläufer sein. Jetzt weißt du auch warum. Wird keinen Sinn machen nen extended Selftest laufen zu lassen, wenn die Platte intern in ihrem eigenen Log schon Lesefehler verzeichnet hat. Probier mal ohne die Platte ob der Server stabil läuft

Link to comment
On 2/29/2024 at 6:38 PM, XxX4V3R said:

defekte dateien? d.h. ich habe bei meiner erstbetankung eventuell eine datei rübergeschoben an dem sich das ganze unraid erschießt und das array den kompletten server in den reboot zwingt?

 

Ich meinte defekte Dateien auf dem USB Stick.

Der Stick enthält Dateien, die eben relevant für das Betriebssystem sind und wenn da etwas nicht sauber drauf ist kann das lustige Effekte erzeugen.

 

On 2/29/2024 at 6:38 PM, XxX4V3R said:

also ist das wirklich ein thema? kann das vorkommen?

 

nicht in der Form, die Du gerade darstellst bei reinen 'Nutzdateien'.

 

Edited by DataCollector
Typos
Link to comment
4 hours ago, XxX4V3R said:

mitten im Kopiervorgang wieder startet sich der Server neu.

harte Neustarts sind in der Regel immer Hardware Fehler, wenn Unraid abschmiert "freezed" das System und du musst händisch neu starten, das nur als Info.

 

sleep plugin > hoffentlich noch nicht aktiv und versehentlich falsch konfiguriert

cache dirs > warum zum Start ?, bringt nur wirklich Last auf den Server bei einer Massenbefüllung

system stats > wird aktuell nicht wirklich weiter entwickelt, vielleicht mal abwarten bis alles da ist

 

cache drive, sehe ich das richtig ? single drive cache in btrfs ? nicht empfohlen ...

 

appdata share cache yes > aufpassen

system share cache no > keine gute Idee

...

 

was noch gerne harte Neustarts verursacht, Stromsparmechanismen ... oder OC wie XMP und co ... BIOS defaults nutzen, Gleiches gilt für powertop und co ...

 

Primär, schau nach deiner Hardware ... auch wenn du gerade am fillen bist, Temps und co ...

 

abschließend meinerseits

1 hour ago, XxX4V3R said:

Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie.

Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend 

noch frustrierender ist es solche Kommentare zu lesen um "gefühlt" zu pushen das jemand antwortet ...

nur meine persönliche Anmerkung.

  • Like 2
Link to comment
3 minutes ago, XxX4V3R said:

na aber auf der anderen seite @bastl, wenn eine platte halt schrott ist, sollte die doch nicht das ganze system mit in den abgrund reißen, oder?

wenn du jemand "pingen" willst, auch auf den aufpoppenden Namen klicken, ansonsten sieht der/diejenige das nicht ;)

 

und Nein, passiert auch nicht, du hast ein Hardware Problem, woher jetzt auch immer ... oder zu scharfe Stromsparmchanismen / OC aktiv ...

  • Like 1
Link to comment

Die Hardware ist
Intel S1200SPL Intel C236 So.1151 Dual Channel DDR4 mATX
MTA18ASF2G72AZ-2G1A1ZG Micron 16GB PC4-17000 DDR4-2133MHz ECC Unbuffered CL15 288-Pin DIMM 1.2V Dual Rank Memory Module
Intel Pentium G4400 2x 3.30GHz Sockel 1151
das Mobo hat OC Kram gar nicht. Das einzige was ich eingestellt habe (und mit der Config lief das Ding ne Woche ohne zu murren) ist beim Powermanagment auf "Power" zu stellen und nicht auf Performance.
Die Temperaturen sind  Mobo (max 45), CPU (max 47) und Platten (max 34Grad) ca

Link to comment
5 minutes ago, XxX4V3R said:

Die Hardware ist

 

5 minutes ago, XxX4V3R said:

das Mobo hat OC Kram gar nicht. Das einzige was ich eingestellt habe (und mit der Config lief das Ding ne Woche ohne zu murren) ist beim Powermanagment auf "Power" zu stellen und nicht auf Performance.

 

5 minutes ago, XxX4V3R said:

Die Temperaturen sind  Mobo (max 45), CPU (max 47) und Platten (max 34Grad) ca

 

dann ist wohl ein Bauteil defekt ... memtest wäre jetzt ein Ansatz um den RAM zu prüfen

dann würde ich das NT mal wechseln wenn machbar

dann ...

Link to comment
12 hours ago, Quarkmax said:

Ist sie denn Schrott? Das ist doch eine Seagate, da läuft das mit den SMART Werten anders.

Ok. Das ist mir auch gerade neu. Die letzten Seagate Platten die ich hatte, zeigten das noch nicht so, allerdings auch schon paar Jahre her. 2-3TB Modelle waren das. Ich habe dennoch Bauchschmerzen bei "recertified" Platten. In einem Kommentar steht folgendes:

Quote

Ganz weit unten in der Artikelbeschreibung bei eBay steht dann, Zitat:
Es handelt sich um eine Seagate recertified Festplatte ohne Betriebsstunden.

Das sind gebrauchte Reparatur-Rückläufer mit genullten Betriebsstunden und zurückgesetzten S.M.A.R.T.-Werten. Man hat also keine Information über den tatsächlichen Verschleiß- und Gesundheitsstatus der Festplatte.

Stell dir vor du kaufst nen gebrauchten PKW, bei dem einfach mal alle alten Unterlagen gelöscht und der Kilometerstand auf 0 gesetzt wurde für 20-30€ günstiger als Neuware.

  • Haha 1
Link to comment
17 hours ago, Quarkmax said:

Ist sie denn Schrott? Das ist doch eine Seagate, da läuft das mit den SMART Werten anders.

 

Nur zum Beispiel habe ich mal einige meiner ST18000NM000J nachgesehen (ich teste alle bei Eintreffen auf DOA und versuche das zu protokollieren und wenn ich die zwischendurch teste, lege ich auch Screenshots ab.).

 

jeweils unterschiedliche Festplatten:

Power on hours: 0
Power Cycle: 1
Raw read error: 50

 

Power on hours: 0
Power Cycle: 1
Raw read error: 34

 

Power on hours: 6986
Power Cycle: 55
Raw read error: 10976522

 

Power on hours: 15372
Power Cycle: 88
Raw read error: 60615811

 

Das sind nur 4 von meinen >20 Stück der Seagate 18TB Exos.

Das sind keine ungewöhnlichen Werte und deuten auch nicht auf einen Schaden hin. Die laufen alle problemlos.

 

Erst wenn die CRC Fehler (Schnittstellenprobleme) oder die pending oder zugewiesenen Werte steigen ist das ein Fall für die Sorge.

 

Edited by DataCollector
  • Like 1
Link to comment
1 hour ago, bastl said:

Die letzten Seagate Platten die ich hatte, zeigten das noch nicht so, allerdings auch schon paar Jahre her. 2-3TB Modelle waren das.

Die Rohfehlerwerte bei hochkapazitiven Festplatten sind logischerweise erheblich höher.

Es ist schon ein Wunder, daß die Hersteller bei der Verkleinerung der Technik, es überhaupt schaffen ziemlich zuverlässig aus den ausgelesenen analogen Signalen noch etwas Originales zu erkennen.

Ziemlich faszinierendes, aber auch seeehr umfangreiches Thema. Nicht umsonst haben festplatten indern sogar ihre eigene Fehlerkorrektur laufen, weil die wissen, daß das Rohsignal eben doch ziemlich "mies" ist.

 

1 hour ago, bastl said:

Ich habe dennoch Bauchschmerzen bei "recertified" Platten. In einem Kommentar steht folgendes:

Stell dir vor du kaufst nen gebrauchten PKW, bei dem einfach mal alle alten Unterlagen gelöscht und der Kilometerstand auf 0 gesetzt wurde für 20-30€ günstiger als Neuware.

 

Wenn Du das nicht akzeptieren wolltest, gibt sie zurück.

 

Das ist eben eine der Unwägbarkeiten bei Recertified von Drittanbietern (egal welcher Hersteller).

Man hat keine Herstellergarantie (oder nur, wenn man glück hat),

man kauft, was angeboten wird und kann sich entweder im Rahmen des Widerrufrechtes (ggf. unter Verlust der Versandkosten) oder im Rahmen der Sachmängelhaftung (mit Beweislastumkehr) über reale Mängel unterhalten. Aber nur normal hoch gezählte Werte sind kein Sachmangel.

 

Beim nächsten Kauf empfehle ich dann aber die Beschreibungen und mitgeltenden Informationen vorher zu lesen.

  • Like 1
Link to comment
47 minutes ago, DataCollector said:

Wenn Du das nicht akzeptieren wolltest, gibt sie zurück.

Ich bin ja nicht der Käufer, und selbst hab ich bisher immer einen Bogen um solche Angebote gemacht. Ausnahmen würde ich ja noch machen, wenn ich direkt beim Angebot sehe die Platte kommt aus nem Rechenzentrum und hat x Betriebsstunden, x TBW etc. Wenn die SMART Werte wie angegeben zurückgesetzt wurden und ich quasi 0 Möglichkeiten hab deren Gebrauch nachzuvollziehen sind es mir die paar Euro Ersparnis auch nicht wert.

 

Kannst du in deinem Fall nachvollziehen bei welchen Modellen die hohen Werte vorhanden sind? Scheint ja so zu sein, dass es bei deinen 18TB Modellen auch nicht einheitlich ist. Kommt das nur ab einem gewissen Modelljahr vor, oder bei einer besonderen Firmware Version?

Link to comment
7 minutes ago, bastl said:

Ich bin ja nicht der Käufer,

Sorry, das hatte ich verwechselt.

 

7 minutes ago, bastl said:

und selbst hab ich bisher immer einen Bogen um solche Angebote gemacht.

ich habe bei 2x 22Tb bei recertified zugeschlagen, weil die Preise wirklich gut waren.

Ansonsten bevorzuge ich auch Neuware mit Herstellergarantie, aber wenn es eilig ist oder der Preis für mich gut, dann mache ich da auch mal eine Ausnahme. 

Dann bin ich mir aber der Situation der Festplatten bewusst.

 

Aktuell habe ich eine 14TB Seagate (ST14000VE0008), die sich mit 8 Real. Sektoren bemerkt gemacht hat und aus einem Hardwareraid geflogen ist.

Ich quäle die jetzt im Dauerlauf, bis die Smartwerte laut dem Seagate Tool schlecht genug für einen Garantietausch sind.

Bis ca. August hat die noch Garantie 😁

 

7 minutes ago, bastl said:

Kannst du in deinem Fall nachvollziehen bei welchen Modellen die hohen Werte vorhanden sind? Scheint ja so zu sein, dass es bei deinen 18TB Modellen auch nicht einheitlich ist. Kommt das nur ab einem gewissen Modelljahr vor, oder bei einer besonderen Firmware Version?

 

Ich kann das bei 17 meiner Seatage 18TB nachvollziehen und alles sind  ST18000NM000J-2TV103 die ich in meinem System Verzeichnet habe.

(Hab' nachgezählt, 17 Stück dieser Type sind bei mir mit Screenshots hinterlegt, ich habe aber noch ein paar mehr 18TB Seagate, die nicht in meinem System verzeichnet sind).

Wenn die Festplatten frisch sind sind die Raw Read Error-Werte eben niedrig & wenn die eben länger in Betrieb sind steigen die Raw Read Error-werte eben.

Das ist aber keine Anzeige für einen technischen Schaden.

Link to comment

@alturismo Ich muss mich für meinen frustrierten Post weiter oben entschuldigen. Ich war einfach nur so genervt von mir selber, so schnell mich in UNRAID gestürtzt zu haben aus einem Bauchgefühl heraus, dass die Community hilfsbereit und die Software ausgereift ist.
Die Community ist toll (auch du hast freundlich geantwortet, dass kennt man so im Netz eigentlich gar nicht, wenn man als Newbie gerade den absoluten Frust schiebt und den ungefiltert herauslässt) und die Software IST ausgereift.
Nachdem du auch zum x. Mal geschrieben hast "es.liegt.an.der.hardware" und ich Memtest, Temps usw. alles durch hatte habe ich *nochmal* alles aufgemacht und überprüft. (Danke)
Ich weiß nicht ob es das war, aber in der SAS-Backplane von dem Gehäuse mit den 3 Molexanschlüssen war der letzte irgendwie etwas lose, obwohl ich den Server nicht bewegt habe, obwohl ich nach dem finalen Einbau noch einmal alle Stecker geprüft habe.
Zumindest der Paritycheck von 1 Tag und 4 Stunden lief fehlerfrei durch, ich werde mich gleich weiter an die Betankung machen.

  • Like 2
Link to comment

ich habe noch bei fixcommonproblems die mountdinger (unassigend devices, schlicht das andere nas, das die betankungsquelle darstellt) auf r/w slave gestellt, das war vorher nicht slave. dabei ist mir aufgefallen, dass ich das plugin auf destructive mode noch hatte, als ich mit den formatierungen rumgespielt hatte beim aufsetzen.
das befüllungsschema habe ich zudem auf "auffüllen" gestellt, möchte die platten nach und nach voll bekommen.

warum auch immer habe ich jetzt statt 200-250mb/s im dateitransfer nur noch 80-110mb/s.
 

Link to comment
Posted (edited)

vom flash habe ich es ja
dann lad ich demnächst nur den previous hoch.
was ich so wild finde, sofern es nicht das array ist (die seagateplatte die irgendwie über das array den ganzen server gegen die wand fährt), dann müsste es ja das netzteil sein, morgen weiß ich mehr.
aber, wenn das array beim zugriff auf platten hängen würde und sich total abschießen würde, dann hätte der server doch noch genügend zeit etwas auf den flashlog zu schreiben, oder nicht?

Edited by XxX4V3R
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.