Server crashed, keine Ahnung wieso


XxX4V3R
Go to solution Solved by XxX4V3R,

Recommended Posts

1 hour ago, XxX4V3R said:

dann hätte der server doch noch genügend zeit etwas auf den flashlog zu schreiben, oder nicht?

wenn es ein Software Thema wäre würde man normal traces und co sehen, aber der Server würde normal nicht "hart" neu starten, bei Hardware ist es meist trial and error bis man das defekte Teil gefunden hat ... leider.

 

Sorry, aber ich da leider keine bessere Antwort für dich, echte Hardware Fehler lösen wie einen "Kurzschluss" aus und da ist nichts groß mit logs, fehlerhafte Kabel wo crc Errors produzieren, klar, Platten wo Lese / Schreibfehler machen, auch klar ... die lassen aber nicht den Server "hart" neu starten, da wird die Platte disabled und gut ist.

 

ich weiß das ist frustrierend, aber leider die Wahrheit ...

Link to comment

ach passt schon, wie du schon sagst, werde dann halt nach und nach die hardware austauschen.
unraid sollte (wenn ich es richtig verstanden habe) ja hw unabhängig sein, oder? d.h. mit dem gleichen usb stick und den gleichen platten an komplett anderer hw sollte es auch laufen, oder?

Link to comment
Posted (edited)

alle platten jetzt von Toshiba (Enterprise) neues Netzteil, preclearing lief durch, paritycheck und rebuild lief durch.
Dann wieder via MC von einer Asustor-Nasfreigabe, eingebunden über smb-shares Kopiervorgang von einer 1:1 Bluraykopie. ich hatte vorher für den share die einstellung "fill up" jetzt habe ich wieder "high water".
Nach wegen Minuten geht das MC - Konsolenwindow zu und das Ding hat wieder einen unclean shutdown

yyyyyyyyyyyyyyyyyyyyy

er kopiert jetzt wieder - ohne parity check - munter vor sich hin und doppelt so lange wie davor...

 

Edited by XxX4V3R
Link to comment

Daran lags nicht, ist diesmal bei einer anderen Datei gecrashed, aber beim kopiervorgang.

Habe den Ram mal runtergetaktet und würde als nächstes den Controller ersetzen und die SATA Ports auf dem Mainboard nutzen. so viel freude

Link to comment
10 hours ago, XxX4V3R said:

Daran lags nicht

Ein Intel Board... sieht man auch nicht alle Tage... :D

 

Hast du mal nachgesehen ob ein BIOS update gibt für das Board selbst?

 

Bitte versuch auch mal das Management Interface sprich den integrierten VGA Controller zu deaktivieren.

Bist du dir auch sicher das deine LSI SAS3008 PCI-Express Fusion-MPT SAS-3 nicht überhietzen (weiß nicht welches case du verwendest und ob da genügen Airflow drüber läuft).

Link to comment

Danke für die Antwort.
Biosupdate hatte ich letztens gemacht. Weiß jetzt gar nicht ob die Crashes schon vorher da waren.
VGA Adapter wird deaktiviert, wenn das Rebuild fertig ist, werde auch die 10gbit LANKarte ausbauen. Crashen scheint er ja aktuell nur noch bei Dateitransfers. Habe ein Chenbro, also richtiges Servergehäuse mit Lüftern, die eher einem Föhn ähneln.

Link to comment
1 hour ago, ich777 said:

Bist du dir auch sicher das deine LSI SAS3008 PCI-Express Fusion-MPT SAS-3 nicht überhietzen (weiß nicht welches case du verwendest und ob da genügen Airflow drüber läuft).

 

Aufgrund des Hinweises von ich777 habe ich mir die Diagnostics mal genauer angesehen:

 

Intel S1200SP Mainboard (leider finde ich da 4 verschiedene Modelle)
PLX Technology, Inc. PEX 8724 24-Lane (ein PCIe Switch-Chip!)
Atlantic 10G LAN (ich hoffe SFP+)
LSI SAS 9300-16i (mit eingebauten 2x Broadcom SAS3008 mit bis zu ca. 27W)

 

Alles ziemliche Hitzköpfe.
In so fern sehe ich den Hinweis von ich777 schon als sehr richtig und zu beachten an.


Bist Du sicher, daß Du die vorgegebene Belüftung einhälst?
Die (bei vielen SAS Kontrollern von LSI wird von mindestens 200 lfm geschrieben und das ist seeehr ernst zu nehmen).
 

Sollte das nicht eingehalten werden, wäre das ein möglicher (wahrscheinlicher) Grund für die häufig auftretenden Probleme.

Link to comment

ich werde mal mit geöffnetem gehäuse (da ist der airflow ja nochmal schlechter) mit der flirkamera ein bild machen, danke für den tipp ihr lieben, trifft sich die deutsche community eigentlich irgendwann mal irgendwo irl?

Link to comment
42 minutes ago, XxX4V3R said:

ich werde mal mit geöffnetem gehäuse (da ist der airflow ja nochmal schlechter) mit der flirkamera ein bild machen, danke für den tipp ihr lieben

 

Da ich in meinen Windowssystemen mit einem SAS Kontroller und mehreren SAS Expandern arbeite ist das temperaturproblem wirklich nicht zu unterschätzen.

Wie ich schon mal berichte sind im Laufe der Jahre die 12cm Lüfter in meinen 19Zoll gehäusen immer schwächer geworden.

Bemerkt habe ich es nachdem mir die dritet Festplatte im Raid ausgestiegen ist.

Da das gehäuse das unterste eines Stapels von schweren Gehäusen war habe ich dann übergangsweise (im Sommer) 3x14CM Arctic P14 PWM davor gestellt, die dann von außerhalb auf das Gehäuse/Plattenstapel geblasen haben. Dann war es besser.

Aber im Endeffekt bleib mir die Lüfter im Gehäuse zu tauschen (aktuell Arctic P12 max.)

 

42 minutes ago, XxX4V3R said:

, trifft sich die deutsche community eigentlich irgendwann mal irgendwo irl?

 

Nicht, daß ich es wüsste.

Da man sich beim Fragen/Antworten das Wissen teilweise irgendwo zusammensuchen muß (weil man auf Anhieb nicht alles weiß und damit es auch belegt werden kann) und es auch besser hilft Befehle oder Links dann auch gleich direkt zu schreiben,  sehe ich schriftliche Hilfe im Forum eigentlich als gute Lösung bei Fragen an.

 

Okay, so kann man sich nicht in geselliger unraid-Runde ein Getränk in den Kragen kippen.  🍸

 

Link to comment
7 minutes ago, DataCollector said:

Okay, so kann man sich nicht in geselliger unraid-Runde ein Getränk in den Kragen kippen.  🍸

Genau das meinte ich, einfach ein schönes get-together mit Bierchen und Grillen.

Link to comment
12 minutes ago, XxX4V3R said:

Das Bild habe ich leider etwas verwackelt, aber man bekommt eine Idee....

Aber das sagt doch nix aus, war denn eine Last am Controller sprich hast du was kopiert? Hast du das Bild durch das Glas gemacht?

Hast du Airflow im case oder nicht, ich spreche hier von viel Airflow und nicht so nur ein wenig da die Karten richtig viel brauchen wie @DataCollector schon geschrieben hat.

Ich würd dir empfehlen das du einen 40mm Lüfter drauf montierst.

 

War es nicht auch so das er Abstürzt wenn du was auf die Disks schreibst?

 

Welche Festplatten hast du eigentlich verbaut SATA oder SAS? Brauchst du denn überhaupt so einen Controller?

Hab mir jetzt nur zwei Platten angesehen aber das sind doch SATA oder?

Link to comment
Posted (edited)
1 hour ago, ich777 said:

Aber das sagt doch nix aus, war denn eine Last am Controller sprich hast du was kopiert? Hast du das Bild durch das Glas gemacht?

nochmal, Chenbro Servergehäuse mit Serverlüftern, viel Airflow, das Ding ist gerade im Rebuild/Paritycheck.

 

1 hour ago, ich777 said:

Hab mir jetzt nur zwei Platten angesehen aber das sind doch SATA oder?

Wollte die SAS Backlplane vorne nutzen. Sind Toshiba Enterprise S-ATA

Edited by XxX4V3R
Link to comment
1 hour ago, ich777 said:

Aber das sagt doch nix aus, war denn eine Last am Controller sprich hast du was kopiert? Hast du das Bild durch das Glas gemacht?

In dem Bild sieht man nicht die Legende mit Temperaturen, nein nicht durch Glas, die FLIR-Kamera macht so ein Overlaymix aus normaler Kamera und IR und scheinbar hätte die sich nochmal kalibrieren müssen, bevor ich abdrücke.

Link to comment
4 hours ago, XxX4V3R said:

In dem Bild sieht man nicht die Legende mit Temperaturen, nein nicht durch Glas, die FLIR-Kamera macht so ein Overlaymix aus normaler Kamera und IR und scheinbar hätte die sich nochmal kalibrieren müssen, bevor ich abdrücke.

 

Beachte, daß Du mit der Kamera die Oberflächentemperatur des Kühlkörpers siehst und nicht die Kerntemperatur der beiden verbauten Kontroller im LSI SAS HBA.

Ja, ein Kühlkörper sollte optimal die Temperatur der Chips abführen, aber wenn ein Peak auftritt ist so ein Kühlkörper meist sehr träge.

Um das dennoch abzufangen empfiehlt 3Ware/Avago/LSI/Broadcom eben einen konstanten Luftstrom von mindestens 200lfm.

 

Link to comment

Paritäts-Prüfung halte ich auch für SAS-Controllerintensiv, ein komplettes Rebuild (was ohne Probleme durchlief) von eine 18tb Platte jedoch noch mehr. Denke den Controller kann man ausschließen.

 

Bisher läuft es stabil beim Datentransfer.
Die Änderungen soweit:
-RAM runtergetaktet (er war nicht übertaktet, konnte aber auch mit weniger mhz laufen)
-die Freigabe von der ich die Daten rüberschiebe ist von einem Windows-PC (nicht von der Asustor NAS)
-Netzwerkkarte ausgebaut und Onboardkarte verwendet

 

Ich vermute ja fast die Netzwerkkarte da  der Serversuizid und reboot immer bei großen Datentransfers aus dem LAN passierte.
Wilde Sache.

Link to comment

und läuft / kopiert noch. werde den thread schließen, sobald ich den ram wieder auf auto gesetzt habe und einen anderen nic eingebaut habe.
eventuell liegt es ja auch am mb, das kaputte lanes hat oder so. keep you posted :)

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.