Cache SSD tot oder ? Update SSD Lebt. Wird aber immer wieder ausgeworfen aus dem Pool. WARUM NUR ?


Chrisu

Recommended Posts

Abend

Nachdem ich den Großteil der Daten ohne Cache m.2 SSD auf den Server kopiert habe habe ich gestern den Cache aktiviert.

Beim kopieren eines Ordners (350GB) den ich übersehen hatte ist nach knapp 2 Minuten eine der beiden Cache SSD aus dem Pool verschwunden.

Es handelt sich dabei um eine Samsung 970 Evo Plus mit 1TB.

Ich habe dann mit dem Mover die 2 SSD geleert um die SSD in einer anderen Reihenfolge und in einem anderen Steckplatz zu testen.

Nach einem Neustart ist sie wieder da nur sobald Schreiblast anfällt verschwindet sie aus dem Pool.

Ein Alarmfenster ist auch aufgeploppt das die Festplatte 82 Grad hat.

Meine Vermutung daher das Sie zu heiß wird und sich abschaltet?

 

SMARTTEST

 

Samsung                                                                                        Andere SSD

Critical warning0x00                                                                       Critical warning0x00

-Temperature35 Celsius                                                                  -Temperature29 Celsius

-Available spare100%                                                                      -Available spare100%

-Available spare threshold10%                                                         -Available spare threshold10%

-Percentage used0%                                                                       -Percentage used0%

-Data units read4,137,770 [2.11 TB]                                                   -Data units read2,934,699 [1.50 TB]

-Data units written7,465,016 [3.82 TB]                                             -Data units written3,047,570 [1.56 TB]

-Host read commands26,550,360                                                    -Host read commands143,929,109

-Host write commands74,108,004                                                     -Host write commands24,020,003

-Controller busy time56                                                                    -Controller busy time134

-Power cycles309                                                                            -Power cycles17

-Power on hours53 (2d, 5h)                                                              -Power on hours155 (6d, 11h)

-Unsafe shutdowns24                                                                       -Unsafe shutdowns7

-Media and data integrity errors0                                                      -Media and data integrity errors0

-Error information log entries811                                                        -Error information log entries0

-Warning comp. temperature time0                                                    -Warning comp. temperature time0

-Critical comp. temperature time0                                                      -Critical comp. temperature time0

-Temperature sensor 1  35 Celsius                                                      -Temperature sensor 229 Celsius

-Temperature sensor 2  28 Celsius                                                     Temperature sensor 332 Celsius

SMART overall-health: Bestanden                                                       -Temperature sensor 429 Celsius

                                                                                                        -Temperature sensor 529 Celsius

                                                                                                         -Temperature sensor 626 Celsius                                          

                                                                                                         -Thermal temp. 1 transition count1

                                                                                                         -Thermal temp. 1 total time31

                                                                                                          SMART overall-health:Bestanden                           

Was mir auffällt.

Im Leerlauf ist Sie 7 Grad wärmer als die andere SSD.

Was mir noch auffällt die Samsung war einige Stunden im Laptop in Betrieb bevor ich sie ins NAS eingebaut habe und hat jetzt

Samsung "Power on hours 52"                                                              Die 2 SSD war neu und hat "Power on hours 155 "

Es kann ja nicht sein das 2 SSDs die im selben Rechner stecken verschiedene Betreibsstunden haben?

Unsafe shutdowns stören mich auch und sind so verschieden.

Ich fahre meine Rechner an und für sich nicht hart herunter.

Irgendetwas stimmt da nicht.

Meine Vermutung ist das die Platte defekt ist aber warum ist dann SMART overall-health: Bestanden?

Kann ich die Platte irgendwie genauer prüfen?

Wenn sie defekt ist hätte ich eine 2 TB liegen die ich mit der 1TB zusammen in den Pool aufnehmen könnte da sind aber nur 1 TB nutzbar?

Damit das nicht mehr passiert sollte ich die SSD aktiv kühlen ?

Oder Kühlkörber auf kleben?

Wie sind Eure Erfahrungen und Empfehlungen?

Cu mfg Chrisu

 

Edited by Chrisu
Link to comment
1 hour ago, Chrisu said:

Meine Vermutung daher das Sie zu heiß wird und sich abschaltet?

Unwahrscheinlich. Der eingebaute Controller drosselt die SSD dann einfach. Rausfliegen darf die deswegen nicht.

 

1 hour ago, Chrisu said:

Nach einem Neustart ist sie wieder da nur sobald Schreiblast anfällt verschwindet sie aus dem Pool.

Was steht denn in den System Logs? I/O Fehler?

 

1 hour ago, Chrisu said:

Kann ich die Platte irgendwie genauer prüfen?

Optimal wäre denke ich der Test mit dem offiziellen Samsung Tool in Windows. Da dann auch einen vollen Benchmark, damit du siehst was passiert, wenn die heiß wird.

 

1 hour ago, Chrisu said:

Oder Kühlkörber auf kleben?

Das reicht schon. Wobei die Samsung bei mir eigentlich nie so schnell heiß werden. Aber ich kann mir gut vorstellen, dass NVMe im RAID niemals in den Standby gehen (und daher nie runterkühlen). Die Tage hatten wir dazu die Überlegung statt BTRFS RAID1 mit zwei einzelnen XFS zu arbeiten, wobei die zweite per rsync (Lsyncd) synchron gehalten wird. Das wäre dann nicht 100% live, aber nah dran und Standby ginge in jedem Fall.

Link to comment

Abend

Ich habe die Festplatte mit dem Samsung Tool geprüft und keine Fehler feststellen können.

In den Server eingebaut als Cache SSD und nach ca 50 Gb Schreiben ist sie wieder weg.

Ich habe sie ausgebaut und gegen eine andere  getauscht die anscheinend stabil läuft.

Wo das Problem liegt kann ich nicht feststellen aber ist mir jetzt mal egal.

Cu mfg Chrisu

 Update:

Die andere SSD ist jetzt auch rausgeflogen.

Nach einem Neustart des Servers ist sie wieder da.

Fehlersuche Eingrenzen.

Gibt es eine Bios Option die dieses Verhalten erklären würde? C246M-WU4

Oder eine Einstellung oder Option in Unraid?

Ich kann ja nichts anderes machen als die SSDs einfach auswählen und als Cache festlegen.

Es ist immer die 2 SSd die rausfliegt. Ich werde morgen mal die Reihenfolge Tauschen und dann die Steckplätze am Bord.

Die Temperatur war jetzt kein Problem unter 40 Grad.

Mover ist jetzt auch gerade zum ersten mal per Plan gestartet . 175 GB zu verschieben mal sehen ob sie wieder rausfliegt.

Das nervt so wenn etwas nur hin und wieder klappt.

Cu mfg Chrisu

 

Edited by Chrisu
Link to comment
  • Chrisu changed the title to Cache SSD tot oder ? Update SSD Lebt. Wird aber immer wieder ausgeworfen aus dem Pool. WARUM NUR ?

Na Super

Der Fehler ist auf jeden Fall reproduziérbar. Zum 5 mal jetzt ausgeworfen .

Kann ich mich jetzt also mit einem tschechischen Onlineshop (Alza) rumärgern über ein Bord das so schon schwer zu bekommen war.

Habe ein wenig gegoogelt " RMA bei Gigabyte" was ich da gefunden habe macht mir wenig Hoffnung.

So Billig ist das Teil nicht. Also entweder Kampf aufnehmen um Ersatz zu bekommen oder nur mit einer SSD arbeiten oder es als Lehrgeld verbuchen.

Danke Dir auf jeden Fall das dir die Mühen hier machst .

Cu mfg Chrisu

 

 

Link to comment

Ich habe mal tel mit dem Kundendienst und jetzt die verlangte Mail abgeschickt.

Der Händler hat noch nichts falsch gemacht ich gebe ihm daher die Möglichkeit angemessen zu reagieren.

Alternative wäre sein Ladenlokal in Wien aufzusuchen und direkt mit jemanden zu sprechen.

Das war der entscheidende Grund das ich dort gekauft habe.

Ich habe das Problem geschildert und einen Tausch auf ein identes Bord oder die ATX Variante (das lagernd ist ) vorgeschlagen.

Mal sehen wie Sie reagieren.

mfg Chrisu

 

Edited by Chrisu
Link to comment

@mgutt

Abend

Status update

Das Bord wird ausgetauscht oder Geld zurück . Scheint Problemlos zu klappen.

Die ATX Variante GIGABYTE C246-WU4 ist lagernd die würde ich als Austausch zur M akzeptieren.

Spricht was dagegen?

Ich habe heute Nachmittag diverse Tests durchgeführt wann und warum die Festplatte ausfällt .

Es ist eindeutig ein Temperaturproblem.

Wenn ich die Temp im Auge behalten habe und rechzeitig Datentransfer pausiert habe blieb die Platte im Pool.

Dabei ist mir aufgefallen das es extreme Unterschiede zu den angezeigten Werten im START (zb 37 Grad) zu den Werten die man über Gerät SMART Werte auslesen konnte waren. (zb 52 Grad)

Was stimmt da?

Mir scheint das die Startseiten anzeigen zeitlich hinterherhinken und nur alle X Minuten aktualisiert werden?

Fragen:

Welche Temp sind für M.2 SSDs als normal zu werten?

Tools Apps oder Container mit denen man diese Werte genauer auslesen und in Echtzeit angezeigt bekommt.

Lüftersteuerung über Software ? Drehzahlanzeigen und Steuerung Docker oder Apps?

Jetzt regelt das Bord die Lüfter.

Wenn ich weiß das ich mehr Trafik haben werde will ich die Drehzahl manuell oder automatisch erhöhen können.

Ich habe einen 12 cm Lüfter der genau auf die SSDs pusten würde aber der läuft auf Standgas.

Dann könnte ich dem Temperaturproblem vorbauen.

Kann es bei dem Bord sein das es eine Bios Schutzschaltung gibt die den Steckplatz abschaltet wenn Temperatur X erreicht ist um den Steckplatz zu schützen.

Ich will vermeiden das es getauscht wird und das das Problem wieder auftritt.

Die Kombination Gehäuse Lüfter Bord und SSD soll ja alles in einem gesunden Bereich halten.

Wir reden ja nicht mal von einem 10Gbit lan . Hier werden per 1Gbit Daten verschoben und der Cache packt es nicht.

Was ist dann erst wenns schneller wird?

Cu mfg Chrisu

 

 

Edited by Chrisu
Link to comment
59 minutes ago, Chrisu said:

Mir scheint das die Startseiten anzeigen zeitlich hinterherhinken und nur alle X Minuten aktualisiert werden?

Ja das ist so

 

1 hour ago, Chrisu said:

Welche Temp sind für M.2 SSDs als normal zu werten?

"Alle". Die drosseln sich so stark, dass die nie überhitzen. Über 70 Grad sind auch kein Problem. Eine 970 Evo drosselt zb erst ab 80 Grad. Ich habe einen semi-passiven Rechner komplett ohne Luftstrom. Da passiert auch nichts.

 

1 hour ago, Chrisu said:

Es ist eindeutig ein Temperaturproblem.

Das oder die Spannung oder beides. Ich tippe auf schlechte Lötkontakte, die bei Ausdehnung, also Wärme, zum Kontaktausfall führen.

 

1 hour ago, Chrisu said:

 

1 hour ago, Chrisu said:

würde ich als Austausch zur M akzeptieren.

Spricht was dagegen?

Es verbraucht mehr Strom und hat keinerlei Vorteile, weil die PCIe Slots auf dem großen Board teilweise deaktiviert oder geshared sind. In meinen Augen ist das eine Mogelpackung. 

 

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.