XxX4V3R Posted February 29 Share Posted February 29 (edited) Neuer Unraidbuild. Soweit so gut, letzte Woche den ersten unexpected reboot bekommen. Full parity check, dann weiter mit der "Erstbetankung" von einer anderen NAS->mitten im Kopiervorgang wieder startet sich der Server neu. Memetest 24h laufen lassen. Alles "passed". In der Wohnung geschaut: war kein Powerloss oder "Brownout". OK. Syslog auf Flash gelegt, gibt meiner Meinung nach auch keine Auskunft, warum er mir beim darauf folgenden Parity-Check abgeschmiert ist. Wo könnte der Hase im Pfeffer liegen? Sry neu hier, erster "Build". Ich weiß gar nicht wo ich anfangen soll. Die SAS-Kabel sind komplett neu, neues Netzteil kommt morgen, wobei ich das eigentlich mir hätte sparen können, aber bin halt nicht vom Fach... syslog-previous syslog chentron-diagnostics-20240229-1546.zip Edited February 29 by XxX4V3R Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie. Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend Quote Link to comment
DataCollector Posted February 29 Share Posted February 29 2 minutes ago, XxX4V3R said: Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie. Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend Reduziere erst einmal alle Komponenten. Erst einmal nur Ram, Mainboard, CPU belassen und system starten und testen (kannst ja unraid vom USB Stick booten und mal schauen ob/wie lange es läuft). Nebenbei gelegentlich hängen Crashes mit den USB Stick zusammen. defekte Dateien sind ein möglicher Punkt. Vielleicht testweise auch mal einen anderen Stick ausprobieren? Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 solange ich das array nicht hochfahre ist alles in ordnung. defekte dateien? d.h. ich habe bei meiner erstbetankung eventuell eine datei rübergeschoben an dem sich das ganze unraid erschießt und das array den kompletten server in den reboot zwingt? oh gott das wird ja immer abstruser. also ist das wirklich ein thema? kann das vorkommen? ich habe/wollte die dateiein von meinem 40tb ausutor datengrab rübertransferieren. ein paar tb sind schon auf dem unraid... Quote Link to comment
bastl Posted February 29 Share Posted February 29 Eine deiner Festplatten (ST18000NM000J-2TV103) hat in den Smart Werten sehr hohe Werte bei den Fehlerraten. Mit der Platte stimmt definitiv was nicht Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-- 076 064 044 - 37673480 3 Spin_Up_Time PO---- 090 090 000 - 0 4 Start_Stop_Count -O--CK 100 100 020 - 17 5 Reallocated_Sector_Ct PO--CK 100 100 010 - 0 7 Seek_Error_Rate POSR-- 079 060 045 - 80588272 9 Power_On_Hours -O--CK 100 100 000 - 256 10 Spin_Retry_Count PO--C- 100 100 097 - 0 12 Power_Cycle_Count -O--CK 100 100 020 - 16 18 Unknown_Attribute PO-R-- 100 100 050 - 0 187 Reported_Uncorrect -O--CK 100 100 000 - 0 188 Command_Timeout -O--CK 100 100 000 - 0 190 Airflow_Temperature_Cel -O---K 075 063 000 - 25 (Min/Max 14/28) 192 Power-Off_Retract_Count -O--CK 100 100 000 - 15 193 Load_Cycle_Count -O--CK 100 100 000 - 27 194 Temperature_Celsius -O---K 025 040 000 - 25 (0 14 0 0 0) 197 Current_Pending_Sector -O--C- 100 100 000 - 0 198 Offline_Uncorrectable ----C- 100 100 000 - 0 199 UDMA_CRC_Error_Count -OSRCK 200 200 000 - 0 200 Multi_Zone_Error_Rate PO---K 100 100 001 - 0 240 Head_Flying_Hours ------ 100 100 000 - 255 (232 238 0) 241 Total_LBAs_Written ------ 100 253 000 - 51453398249 242 Total_LBAs_Read ------ 100 253 000 - 219259610467 Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 ha! danke, das war diese scheiße https://www.mydealz.de/deals/viel-platz-fur-wenig-geld-eur-12722tb-2315683?pprmrkntfctnsrd=637656906&UATypeId=7 "recertified" könnte es daran liegen, oder hat die wirklich einen knax? die ganzen parirtychecks und auch smart diags waren ohne probleme. Quote Link to comment
bastl Posted February 29 Share Posted February 29 Wenn mal bei "Raw_Read_Error_Rate" 3-4 oder so steht und nicht hoch geht, würde ich mir garkeine Sorgen machen, aber 37673480 bei gerademal 256h Laufzeit ist nicht ok. Je nachdem wie man die Platte testet, wird es vielleicht garnicht direkt auffallen. Formatieren und Daten drauf kopieren mag vielleicht noch funktionieren, beim Lesen der Daten wird man es dann aber sicherlich merken. "recertified" wird denke mal nen Rückläufer sein. Jetzt weißt du auch warum. Wird keinen Sinn machen nen extended Selftest laufen zu lassen, wenn die Platte intern in ihrem eigenen Log schon Lesefehler verzeichnet hat. Probier mal ohne die Platte ob der Server stabil läuft Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 ok, neue Platte bestellt kommt Montag. Kann ich die Daten von der defekten Platte rüberkopieren (nachdem der paritätscheck fertig ist) oder sollte ich den gar nicht erst machen? Quote Link to comment
DataCollector Posted February 29 Share Posted February 29 (edited) On 2/29/2024 at 6:38 PM, XxX4V3R said: defekte dateien? d.h. ich habe bei meiner erstbetankung eventuell eine datei rübergeschoben an dem sich das ganze unraid erschießt und das array den kompletten server in den reboot zwingt? Ich meinte defekte Dateien auf dem USB Stick. Der Stick enthält Dateien, die eben relevant für das Betriebssystem sind und wenn da etwas nicht sauber drauf ist kann das lustige Effekte erzeugen. On 2/29/2024 at 6:38 PM, XxX4V3R said: also ist das wirklich ein thema? kann das vorkommen? nicht in der Form, die Du gerade darstellst bei reinen 'Nutzdateien'. Edited March 6 by DataCollector Typos Quote Link to comment
alturismo Posted February 29 Share Posted February 29 4 hours ago, XxX4V3R said: mitten im Kopiervorgang wieder startet sich der Server neu. harte Neustarts sind in der Regel immer Hardware Fehler, wenn Unraid abschmiert "freezed" das System und du musst händisch neu starten, das nur als Info. sleep plugin > hoffentlich noch nicht aktiv und versehentlich falsch konfiguriert cache dirs > warum zum Start ?, bringt nur wirklich Last auf den Server bei einer Massenbefüllung system stats > wird aktuell nicht wirklich weiter entwickelt, vielleicht mal abwarten bis alles da ist cache drive, sehe ich das richtig ? single drive cache in btrfs ? nicht empfohlen ... appdata share cache yes > aufpassen system share cache no > keine gute Idee ... was noch gerne harte Neustarts verursacht, Stromsparmechanismen ... oder OC wie XMP und co ... BIOS defaults nutzen, Gleiches gilt für powertop und co ... Primär, schau nach deiner Hardware ... auch wenn du gerade am fillen bist, Temps und co ... abschließend meinerseits 1 hour ago, XxX4V3R said: Ich hätte wohl nie unraid nutzen sollen, ich bin schlicht zu wenig drin in der Materie. Mich hat es einfach zu sehr gereizt, dass ich Disks verschiedener Größe mit nur einem Parirty drive in ein Array packen konnte. Boah ist das frustrierend noch frustrierender ist es solche Kommentare zu lesen um "gefühlt" zu pushen das jemand antwortet ... nur meine persönliche Anmerkung. 2 Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 na aber auf der anderen seite @bastl, wenn eine platte halt schrott ist, sollte die doch nicht das ganze system mit in den abgrund reißen, oder? Quote Link to comment
alturismo Posted February 29 Share Posted February 29 3 minutes ago, XxX4V3R said: na aber auf der anderen seite @bastl, wenn eine platte halt schrott ist, sollte die doch nicht das ganze system mit in den abgrund reißen, oder? wenn du jemand "pingen" willst, auch auf den aufpoppenden Namen klicken, ansonsten sieht der/diejenige das nicht und Nein, passiert auch nicht, du hast ein Hardware Problem, woher jetzt auch immer ... oder zu scharfe Stromsparmchanismen / OC aktiv ... 1 Quote Link to comment
XxX4V3R Posted February 29 Author Share Posted February 29 Die Hardware ist Intel S1200SPL Intel C236 So.1151 Dual Channel DDR4 mATX MTA18ASF2G72AZ-2G1A1ZG Micron 16GB PC4-17000 DDR4-2133MHz ECC Unbuffered CL15 288-Pin DIMM 1.2V Dual Rank Memory Module Intel Pentium G4400 2x 3.30GHz Sockel 1151 das Mobo hat OC Kram gar nicht. Das einzige was ich eingestellt habe (und mit der Config lief das Ding ne Woche ohne zu murren) ist beim Powermanagment auf "Power" zu stellen und nicht auf Performance. Die Temperaturen sind Mobo (max 45), CPU (max 47) und Platten (max 34Grad) ca Quote Link to comment
alturismo Posted February 29 Share Posted February 29 5 minutes ago, XxX4V3R said: Die Hardware ist 5 minutes ago, XxX4V3R said: das Mobo hat OC Kram gar nicht. Das einzige was ich eingestellt habe (und mit der Config lief das Ding ne Woche ohne zu murren) ist beim Powermanagment auf "Power" zu stellen und nicht auf Performance. 5 minutes ago, XxX4V3R said: Die Temperaturen sind Mobo (max 45), CPU (max 47) und Platten (max 34Grad) ca dann ist wohl ein Bauteil defekt ... memtest wäre jetzt ein Ansatz um den RAM zu prüfen dann würde ich das NT mal wechseln wenn machbar dann ... Quote Link to comment
Quarkmax Posted February 29 Share Posted February 29 (edited) 1 hour ago, XxX4V3R said: wenn eine platte halt schrott ist Ist sie denn Schrott? Das ist doch eine Seagate, da läuft das mit den SMART Werten anders. Edited February 29 by Quarkmax Quote Link to comment
bastl Posted March 1 Share Posted March 1 12 hours ago, Quarkmax said: Ist sie denn Schrott? Das ist doch eine Seagate, da läuft das mit den SMART Werten anders. Ok. Das ist mir auch gerade neu. Die letzten Seagate Platten die ich hatte, zeigten das noch nicht so, allerdings auch schon paar Jahre her. 2-3TB Modelle waren das. Ich habe dennoch Bauchschmerzen bei "recertified" Platten. In einem Kommentar steht folgendes: Quote Ganz weit unten in der Artikelbeschreibung bei eBay steht dann, Zitat: Es handelt sich um eine Seagate recertified Festplatte ohne Betriebsstunden. Das sind gebrauchte Reparatur-Rückläufer mit genullten Betriebsstunden und zurückgesetzten S.M.A.R.T.-Werten. Man hat also keine Information über den tatsächlichen Verschleiß- und Gesundheitsstatus der Festplatte. Stell dir vor du kaufst nen gebrauchten PKW, bei dem einfach mal alle alten Unterlagen gelöscht und der Kilometerstand auf 0 gesetzt wurde für 20-30€ günstiger als Neuware. 1 Quote Link to comment
DataCollector Posted March 1 Share Posted March 1 (edited) 17 hours ago, Quarkmax said: Ist sie denn Schrott? Das ist doch eine Seagate, da läuft das mit den SMART Werten anders. Nur zum Beispiel habe ich mal einige meiner ST18000NM000J nachgesehen (ich teste alle bei Eintreffen auf DOA und versuche das zu protokollieren und wenn ich die zwischendurch teste, lege ich auch Screenshots ab.). jeweils unterschiedliche Festplatten: Power on hours: 0 Power Cycle: 1 Raw read error: 50 Power on hours: 0 Power Cycle: 1 Raw read error: 34 Power on hours: 6986 Power Cycle: 55 Raw read error: 10976522 Power on hours: 15372 Power Cycle: 88 Raw read error: 60615811 Das sind nur 4 von meinen >20 Stück der Seagate 18TB Exos. Das sind keine ungewöhnlichen Werte und deuten auch nicht auf einen Schaden hin. Die laufen alle problemlos. Erst wenn die CRC Fehler (Schnittstellenprobleme) oder die pending oder zugewiesenen Werte steigen ist das ein Fall für die Sorge. Edited March 1 by DataCollector 1 Quote Link to comment
DataCollector Posted March 1 Share Posted March 1 1 hour ago, bastl said: Die letzten Seagate Platten die ich hatte, zeigten das noch nicht so, allerdings auch schon paar Jahre her. 2-3TB Modelle waren das. Die Rohfehlerwerte bei hochkapazitiven Festplatten sind logischerweise erheblich höher. Es ist schon ein Wunder, daß die Hersteller bei der Verkleinerung der Technik, es überhaupt schaffen ziemlich zuverlässig aus den ausgelesenen analogen Signalen noch etwas Originales zu erkennen. Ziemlich faszinierendes, aber auch seeehr umfangreiches Thema. Nicht umsonst haben festplatten indern sogar ihre eigene Fehlerkorrektur laufen, weil die wissen, daß das Rohsignal eben doch ziemlich "mies" ist. 1 hour ago, bastl said: Ich habe dennoch Bauchschmerzen bei "recertified" Platten. In einem Kommentar steht folgendes: Stell dir vor du kaufst nen gebrauchten PKW, bei dem einfach mal alle alten Unterlagen gelöscht und der Kilometerstand auf 0 gesetzt wurde für 20-30€ günstiger als Neuware. Wenn Du das nicht akzeptieren wolltest, gibt sie zurück. Das ist eben eine der Unwägbarkeiten bei Recertified von Drittanbietern (egal welcher Hersteller). Man hat keine Herstellergarantie (oder nur, wenn man glück hat), man kauft, was angeboten wird und kann sich entweder im Rahmen des Widerrufrechtes (ggf. unter Verlust der Versandkosten) oder im Rahmen der Sachmängelhaftung (mit Beweislastumkehr) über reale Mängel unterhalten. Aber nur normal hoch gezählte Werte sind kein Sachmangel. Beim nächsten Kauf empfehle ich dann aber die Beschreibungen und mitgeltenden Informationen vorher zu lesen. 1 Quote Link to comment
bastl Posted March 1 Share Posted March 1 47 minutes ago, DataCollector said: Wenn Du das nicht akzeptieren wolltest, gibt sie zurück. Ich bin ja nicht der Käufer, und selbst hab ich bisher immer einen Bogen um solche Angebote gemacht. Ausnahmen würde ich ja noch machen, wenn ich direkt beim Angebot sehe die Platte kommt aus nem Rechenzentrum und hat x Betriebsstunden, x TBW etc. Wenn die SMART Werte wie angegeben zurückgesetzt wurden und ich quasi 0 Möglichkeiten hab deren Gebrauch nachzuvollziehen sind es mir die paar Euro Ersparnis auch nicht wert. Kannst du in deinem Fall nachvollziehen bei welchen Modellen die hohen Werte vorhanden sind? Scheint ja so zu sein, dass es bei deinen 18TB Modellen auch nicht einheitlich ist. Kommt das nur ab einem gewissen Modelljahr vor, oder bei einer besonderen Firmware Version? Quote Link to comment
DataCollector Posted March 1 Share Posted March 1 7 minutes ago, bastl said: Ich bin ja nicht der Käufer, Sorry, das hatte ich verwechselt. 7 minutes ago, bastl said: und selbst hab ich bisher immer einen Bogen um solche Angebote gemacht. ich habe bei 2x 22Tb bei recertified zugeschlagen, weil die Preise wirklich gut waren. Ansonsten bevorzuge ich auch Neuware mit Herstellergarantie, aber wenn es eilig ist oder der Preis für mich gut, dann mache ich da auch mal eine Ausnahme. Dann bin ich mir aber der Situation der Festplatten bewusst. Aktuell habe ich eine 14TB Seagate (ST14000VE0008), die sich mit 8 Real. Sektoren bemerkt gemacht hat und aus einem Hardwareraid geflogen ist. Ich quäle die jetzt im Dauerlauf, bis die Smartwerte laut dem Seagate Tool schlecht genug für einen Garantietausch sind. Bis ca. August hat die noch Garantie 😁 7 minutes ago, bastl said: Kannst du in deinem Fall nachvollziehen bei welchen Modellen die hohen Werte vorhanden sind? Scheint ja so zu sein, dass es bei deinen 18TB Modellen auch nicht einheitlich ist. Kommt das nur ab einem gewissen Modelljahr vor, oder bei einer besonderen Firmware Version? Ich kann das bei 17 meiner Seatage 18TB nachvollziehen und alles sind ST18000NM000J-2TV103 die ich in meinem System Verzeichnet habe. (Hab' nachgezählt, 17 Stück dieser Type sind bei mir mit Screenshots hinterlegt, ich habe aber noch ein paar mehr 18TB Seagate, die nicht in meinem System verzeichnet sind). Wenn die Festplatten frisch sind sind die Raw Read Error-Werte eben niedrig & wenn die eben länger in Betrieb sind steigen die Raw Read Error-werte eben. Das ist aber keine Anzeige für einen technischen Schaden. Quote Link to comment
XxX4V3R Posted March 2 Author Share Posted March 2 @alturismo Ich muss mich für meinen frustrierten Post weiter oben entschuldigen. Ich war einfach nur so genervt von mir selber, so schnell mich in UNRAID gestürtzt zu haben aus einem Bauchgefühl heraus, dass die Community hilfsbereit und die Software ausgereift ist. Die Community ist toll (auch du hast freundlich geantwortet, dass kennt man so im Netz eigentlich gar nicht, wenn man als Newbie gerade den absoluten Frust schiebt und den ungefiltert herauslässt) und die Software IST ausgereift. Nachdem du auch zum x. Mal geschrieben hast "es.liegt.an.der.hardware" und ich Memtest, Temps usw. alles durch hatte habe ich *nochmal* alles aufgemacht und überprüft. (Danke) Ich weiß nicht ob es das war, aber in der SAS-Backplane von dem Gehäuse mit den 3 Molexanschlüssen war der letzte irgendwie etwas lose, obwohl ich den Server nicht bewegt habe, obwohl ich nach dem finalen Einbau noch einmal alle Stecker geprüft habe. Zumindest der Paritycheck von 1 Tag und 4 Stunden lief fehlerfrei durch, ich werde mich gleich weiter an die Betankung machen. 2 Quote Link to comment
XxX4V3R Posted March 2 Author Share Posted March 2 ich habe noch bei fixcommonproblems die mountdinger (unassigend devices, schlicht das andere nas, das die betankungsquelle darstellt) auf r/w slave gestellt, das war vorher nicht slave. dabei ist mir aufgefallen, dass ich das plugin auf destructive mode noch hatte, als ich mit den formatierungen rumgespielt hatte beim aufsetzen. das befüllungsschema habe ich zudem auf "auffüllen" gestellt, möchte die platten nach und nach voll bekommen. warum auch immer habe ich jetzt statt 200-250mb/s im dateitransfer nur noch 80-110mb/s. Quote Link to comment
XxX4V3R Posted March 2 Author Share Posted March 2 (edited) soderle, wieder "Unclean shutdown detected." Diesmal während eines MC Kopiervorgangs. Sobald ich wieder lokal vor der Maschine sitze tausche ich das Netzteil. Das Log sagt ja leider auch nichts aus. Also zumindest nicht für mich. Humpfsyslog-previous syslog chentron-diagnostics-20240302-1541.zip Edited March 2 by XxX4V3R Quote Link to comment
alturismo Posted March 2 Share Posted March 2 3 minutes ago, XxX4V3R said: Das Log sagt ja leider auch nichts aus. Also zumindest nicht für mich. das log "nach" dem Neustart bringt auch nichts ... syslog to flash aktivieren solange du am debuggen bist. Quote Link to comment
XxX4V3R Posted March 2 Author Share Posted March 2 (edited) vom flash habe ich es ja dann lad ich demnächst nur den previous hoch. was ich so wild finde, sofern es nicht das array ist (die seagateplatte die irgendwie über das array den ganzen server gegen die wand fährt), dann müsste es ja das netzteil sein, morgen weiß ich mehr. aber, wenn das array beim zugriff auf platten hängen würde und sich total abschießen würde, dann hätte der server doch noch genügend zeit etwas auf den flashlog zu schreiben, oder nicht? Edited March 2 by XxX4V3R Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.