Array Stop -Wie bekomme ich raus, was da das unmounting der Disks blockiert?


Recommended Posts

Guten Tag.

 

Ich habe das Problem schon länger, aber nun muß ich das wohl mal so langsam irgendwie angehen.
Leider habe ich keinen Schimmer wie/wo ich dazu passend suchen kann.

 

Kurz:

Was blockiert das unmounting beim Stop des Array?

 

Lang:

Ich will den PC herunter fahren, weil ich die 2TB Cache SSD (Samsung 970Evo Plus) gegen ein 4TB Modell ADATA XPG SX8100-4TB) tauschen will.
Die Daten dieser Cache SSD habe ich alle einmal auf einer Disk(23) im Array und zusätzlich auf einem anderen PC (Windows) über SMB Share gesichert. Also ist Datenverlust auf der CacheSSD egal, Ich kann ja das Backup/Kopie wieder einspielen.
Ich habe alle SMB Shares die diese Cache SSD benutzen auf Cache No umgestellt. Auf der SSD liegen zwar noch ein paar Verzeichnisse/Daten, aber die sind ja auch wo anders hin gesichert.
(Verzeichnisse: appdata domains isos system downloads)

 

Die Festplatten waren alle (bis auf eine) Spindown. Die eine (Nr.23) war das lokale Backupziel und idle.

 

Alle VM und Docker sind gestoppt. Ich habe unter Settings auch VM und Docker abgeschaltete (no).

 

Nun habe ich das Array im Main-Tab per Stop stoppen wollen, um danach Shutdown durchzuführen.
Dabei hat unraid (wie üblich) alle Disks aufgeweckt (Spinup).
Nun meldet mit unraid nun seit über einer halben Stunde unten links "Array Stopping * Retry unmounting disk share(s)..."
Im Dashboard-Tab sehe ich keine signifikante CPU Last (1-3%).

 

Klar kann ich das System abwürgen, doch dann habe ich nach dem Neustart einen Paritycheck vor mir.

 

In der Vergangenheit hatte ich schon öfters das Problem, daß das System nicht sauber herunter gefahren ist, aber da hatte ich es eigentlich immer eilig.
Aktuell habe ich es mit dem System nicht eilig und kann es zur Problemsuche laufen lassen, so dass ich zur Diagnose in dem Zustand auch weitere Informationen liefern könnte.

 

Wie bekomme ich raus, was da das unmounting der Disks blockiert?

 

Ergänzung:

Ich wollte einen htop Screenshot anhängen und gerade als ich htop gestartet habe um den Screenshot zu erzeugen, wechselt im Main Tab das System um, so daß ich dort nun im Array/Cache disks zuordnen könnte. Somit hat entweder zeitgleich der "Bremser" aufgegeben oder das Aufrufen von htop hat den "Bremser" angeschubst. Somit zeigt der htop Screenshot (2) den Zustand 1 oder 2 Sekunden, nachdem der Main Tab gewechselt hat (Screenshot 3)

 

ARRAY-STOPPING-2022-08-02 20_07_22-102 Tessa Main.png

htop-Array-Stop--2022-08-02 20_27_54-102 Tessa Main.png

Main-Tab-NACH-STOP--2022-08-02 20_31_35-102 Tessa Main.png

Array-Stoppped###--2022-08-02 20_34_05-102 Tessa Main.png

Link to comment
7 minutes ago, DataCollector said:

Nun habe ich das Array im Main-Tab per Stop stoppen wollen, um danach Shutdown durchzuführen.
Dabei hat unraid (wie üblich) alle Disks aufgeweckt (Spinup).
Nun meldet mit unraid nun seit über einer halben Stunde unten links "Array Stopping * Retry unmounting disk share(s)..."
Im Dashboard-Tab sehe ich keine signifikante CPU Last (1-3%).

Zusammengefasst, array stop ... was kann das alles sein wenn es nicht stoppt

 

einfach gesagt,, irgend etwas greift aktiv auf den/die share(s) zu

 

docker (ausgeschaltet), vm (ausgeschaltet), plugins ? andere Rechner (mounts) ? ... 

 

dafür gäbe es file activity, active streams usw usw ... da würde ich ansetzen.

 

Beispiele

 

 

9 minutes ago, DataCollector said:

Klar kann ich das System abwürgen, doch dann habe ich nach dem Neustart einen Paritycheck vor mir.

 

wenn du dir sicher bist dass aktiv nichts passiert ist, kannst du den check auch einfach abbrechen, parity bleibt dann zum letzten Stand einfach bestehen, nur am Rand erwähnt falls nicht bekannt ... wo ich noch crashes hatte (corefreq plugin) hab ich das immer gemacht und im echten folgenden check (ich mach das ~ alle 6 Monate mal) war immer alles ok ;)

Link to comment
14 minutes ago, alturismo said:

einfach gesagt,, irgend etwas greift aktiv auf den/die share(s) zu

Denke ich mir auch, aber ich weiss nicht was.

 

14 minutes ago, alturismo said:

docker (ausgeschaltet), vm (ausgeschaltet),

Ja. Alle Docker aus, alle VM aus und auch der Docker udn VM Manager auf NO gestellt.

 

14 minutes ago, alturismo said:

plugins ?

Installierte Plugins:

CA Mover Tuning
Community Applications
disklocation
Dynamix Cache Directories
Dynamix File Integrity
Dynamix File Manager
Dynamix SSD TRIM
Dynamix System Information
Dynamix System Statistics
Dynamix System Temperature
Fix Common Problems
Intel GPU TOP
Mellanox Firmware Tools
Nerd Tools
Recycle Bin
Tasmota Power Monitor
Tips and Tweaks
Unassigned Devices
Unassigned Devices Plus
Unassigned Devices Preclear

 

14 minutes ago, alturismo said:

andere Rechner (mounts) ? ... 

Das unraidsystem gibt zwar SMB Shares im lokalen Netz frei, aber seit gestern Abend hat keiner der PC erneut auf eines der unraid Shares zugegriffen.

 

14 minutes ago, alturismo said:

dafür gäbe es file activity, active streams usw usw ... da würde ich ansetzen.

Dann werde ich da mal anfangen. Danke sehr!

 

14 minutes ago, alturismo said:

wenn du dir sicher bist dass aktiv nichts passiert ist, kannst du den check auch einfach abbrechen, parity bleibt dann zum letzten Stand einfach bestehen, nur am Rand erwähnt falls nicht bekannt ...

Ja, das ist mir bekannt, aber ich habe damit so meien Probleme. Wenn die Systeme nicht normal/schnell herunter fahren, sondern sich selber oder von mir manuell abgewürgt werden, zeigen sich oft bei dem folgenden Paritycheck Errors. Ich befürchte, daß die mit dem eben forcierten Shutdown zusammen hängen.

Deshalb (und auch um im Falle eines Stromausfalles beim UPS-Shutdown nicht zu lange warten zu müssen) muß ich mich so langsam dieser Blockade mal zuwenden.

 

14 minutes ago, alturismo said:

wo ich noch crashes hatte (corefreq plugin) hab ich das immer gemacht und im echten folgenden check (ich mach das ~ alle 6 Monate mal) war immer alles ok ;)

Leider sind die Zwangschecks nach forciertem Shutdown meist leider nicht fehlerfrei.

Link to comment
2 minutes ago, DataCollector said:

Leider sind die Zwangschecks nach forciertem Shutdown meist leider nicht fehlerfrei.

ok, dann tippe ich jetzt mal ziemlich sicher dass da wirklich etwas passiert, viel Erfolg bei der Suche.

 

preclear wäre ein plugin was ich entfernen würde, brauchst du ja nur wenn aktiv neue disks rein kommen, ebenso nerd tools mal anschauen, was hast du damit installiert ? vielleicht auch etwas was ... für ein script welches ... usw usw ...

Link to comment

Wenn es hängt kann man mit lsof | grep "/mnt/disk" bzw. den user, cache, pool -Namen suchen.

 

Gibt es kein Ergebnis, dann sind Sessions offen.

 

Beim nächsten Shutdown würde ich einfach Mal alles manuell nacheinander stoppen und gucken.

 

Grundsätzlich ist es auch besser z.B. mit UD statt eigenen Mounts zu arbeiten.

 

Link to comment
On 8/2/2022 at 9:18 PM, alturismo said:

ok, dann tippe ich jetzt mal ziemlich sicher dass da wirklich etwas passiert, viel Erfolg bei der Suche.

Danke. Ist gestern auch bei meinem 2nd System wieder passiert. (Auf dem leider bis dahin noch nicht file activity und active streams installiert war).

Habe eine Platte Precleared um sie dem Array zuzufügen.

Dann wollte ich Array stoppen und nach mehr als 1h "unmounting Disks" habe ich dann Reboot angewählt. Doch das brachte nichts. ich musste dann Strom ausschalten und dann wieder einschalten.

Ich habe dann die geclearte Platte zum Array zugefügt und dann das Array gestartet und erwartungsgemäß macht er gerade automatisch einen Paritycheck durch. (siehe Screenshot unten)

 

On 8/2/2022 at 9:18 PM, alturismo said:

preclear wäre ein plugin was ich entfernen würde,

Ich cleare öfters Platten an den Systemen, da sie ja noch im Aufbau sind und immer wieder neue Platten/SSD bekommen.

On 8/2/2022 at 9:18 PM, alturismo said:

brauchst du ja nur wenn aktiv neue disks rein kommen,

Also aktuell fast im Wochenrythmus.

On 8/2/2022 at 9:18 PM, alturismo said:

ebenso nerd tools mal anschauen, was hast du damit installiert?

Im 1st System:

ddrescue-1.23-x86_64-2.txz

mcelog-161-x86_64-1.txz  (wurde von Fix Common Problems vorgegeben)

perl-5.32.0-x86_64-1.txz (Für Tempertursteuerung/Sensorerkennung)

powertop-2.13-x86_64-1.txz

 

2nd System:

ddrescue-1.23-x86_64-2.txz

perl-5.32.0-x86_64-1.txz (Für Tempertursteuerung/Sensorerkennung)

 

On 8/2/2022 at 9:18 PM, alturismo said:

vielleicht auch etwas was ... für ein script welches ... usw usw ...

1st System: Go

#!/bin/bash
# Start the Management Utility
/usr/local/sbin/emhttp &
# -------------------------------------------------
# Reactivate HDD write cache on Adaptect Series7
# -------------------------------------------------
smartctl -s wcache-sct,on,p /dev/sd*
# -------------------------------------------------
# Optimize write cache
# -------------------------------------------------
sysctl vm.dirty_ratio=60

 

2nd System: Go

#!/bin/bash
# Start the Management Utility
/usr/local/sbin/emhttp &
sysctl vm.dirty_ratio=50

 

 

SHIPON-PC-LAEUFT-#######2022-08-04 10_55_27-UR-Shipon_Main.png

Edited by DataCollector
Link to comment
On 8/3/2022 at 9:21 AM, hawihoney said:

Wenn es hängt kann man mit lsof | grep "/mnt/disk" bzw. den user, cache, pool -Namen suchen.

Gibt es kein Ergebnis, dann sind Sessions offen.

Werde ich beim nächsten mal machen. Aktuell muß ich (beim 2nd System) erst einmal wieder den Paritycheck abwarten.

 

 

On 8/3/2022 at 9:21 AM, hawihoney said:

Beim nächsten Shutdown würde ich einfach Mal alles manuell nacheinander stoppen und gucken.

"Alles"?

Wie ist das gemeint?

In meinem ursprünglich geschilderten Fall hatte ich ja alle Vm gestoppt, alle Docker gestoppt, dann in Settings VM und Docker auch ausgeschaltet.

22 der 23 Disks waren Spindown und die 23 idle.

Und dann Array stoppen hängte.

 

On 8/3/2022 at 9:21 AM, hawihoney said:

Grundsätzlich ist es auch besser z.B. mit UD statt eigenen Mounts zu arbeiten.

Das sagt mir nichts. Ich gebe von Unraid aus Shares im netz frei (die aber in dem Moment nicht mehr angespriochen wurden) und ich Mounte ueber die UD ein SMB Share von einem externen Windowssystem in unraid rein.

 

Link to comment
41 minutes ago, DataCollector said:

Wie ist das gemeint?

In meinem ursprünglich geschilderten Fall hatte ich ja alle Vm gestoppt, alle Docker gestoppt, dann in Settings VM und Docker auch ausgeschaltet.

22 der 23 Disks waren Spindown und die 23 idle.

Und dann Array stoppen hängte.

 

Diese 23. Da wird dann eine Deiner SSH Sessions oä offen sein. Oder Screen, falls Du damit arbeitest. Oder ein Kopiervorgang. Etwas anderes kann es dann nicht mehr sein.

 

Das wird dann mit lsof bzw. ps zu klären sein.

 

Edited by hawihoney
Link to comment
1 hour ago, DataCollector said:

smartctl -s wcache-sct,on,p /dev/sd*
# -------------------------------------------------
# Optimize write cache
# -------------------------------------------------
sysctl vm.dirty_ratio=60

zum Ausschluss, da dies ja ein permanentes Thema bei Dir ist, beides mal ex da beides ja direkt/indirekt auch disk relevant ist.

 

1 hour ago, DataCollector said:

mcelog-161-x86_64-1.txz  (wurde von Fix Common Problems vorgegeben)

 

wenn du Fix Common ... nutzt, ok ... 

1 hour ago, DataCollector said:

perl-5.32.0-x86_64-1.txz (Für Tempertursteuerung/Sensorerkennung)

 

nur zur erstmaligen Installation wenn notwendig (sensors-detect), auch ok ...

1 hour ago, DataCollector said:

powertop-2.13-x86_64-1.txz

 

verdammt alt und "meiner Meinung nach" nicht mehr so aussagekräftig für aktuelle Systeme, gibt ja auch die 2.14er hier im Forum zur Direktinstallation

 

ddrescue ... hoffentlich nicht oft im Gebrauch ;)

 

Nerd Pack, das installiert simpel die Pakete welche du auch ohne plugin installieren kannst, Beispiel ...

 

image.png.6e77c55b26e42b12e00792d3ed871ca2.png

 

alles was im Ordner extra liegt wird automatisch installiert beim Start, und da Nerd Tools nicht mehr wirklich aktualisiert wird ... nur als Info.

Link to comment
1 hour ago, hawihoney said:

Diese 23. Da wird dann eine Deiner SSH Sessions oä offen sein.

SSH - bewusst nutze ich es nicht.

Ich hatte eben nur den Firefox auf einem Windowsrechner und darüber dann eben die unraidwebseite offen und wartete auf ds Stoppen des Array.

Mehr war da nicht.

 

1 hour ago, hawihoney said:

Oder Screen, falls Du damit arbeitest.

Diese unraid PC stehen im Keller. Über KVM ist ein Monitor/Mouse/Keyb. angeschlossen (und laufen auf ein Aten CN8600 in mein Netzwerk).

Ich arbeite aber in der Regel auf meinem 1st System nur über RealVNC in der WIndows VM.

Nur wenn ich Im Dateibereich Probleme habe, mache ich Docker Krusader/ich777 oder MC auf.

Ich habe auch noch einen SABnzbd Docker, der ab und zu was downloaded. Aber wie gesagt: alle Docker und VM waren gestoppt.

 

1 hour ago, hawihoney said:

Oder ein Kopiervorgang. Etwas anderes kann es dann nicht mehr sein.

Dachte ich mir ja auch. Deswegen bin ich ja verwundert. Ich konnte bisher nicht erkennen, was da bremst.

 

1 hour ago, hawihoney said:

Das wird dann mit lsof bzw. ps zu klären sein.

Und mit diesen Befehlen muß ich mich dann erst einmal beschäftigen.

 

Danke aauch Dir!

Link to comment
26 minutes ago, alturismo said:

verdammt alt und "meiner Meinung nach" nicht mehr so aussagekräftig für aktuelle Systeme, gibt ja auch die 2.14er hier im Forum zur Direktinstallation

Ist nur installiert, weil ich es ausprobiert hatte (wie man etwas nebenher installiert weiss ich nicht).

Es war auch kurz in meinem Go file drin.

Aber seit es mir auf einem meiner Systeme mein Array zerschossen hat, habe ich es bei beiden Systemen wieder aus dem Go file entfernt.

 

26 minutes ago, alturismo said:

ddrescue ... hoffentlich nicht oft im Gebrauch ;)

Bisher nie. Aber da es für Kopieren geeignet ist, habe ich es mal zur Sicherheit drauf.

Als Windowsnutzer mache ich aber dennoch eigentlich alles mit Windows VM, Krusader/ich777 oder MC.

 

26 minutes ago, alturismo said:

Nerd Pack, das installiert simpel die Pakete welche du auch ohne plugin installieren kannst, Beispiel ...

So hatte ich es verstanden, da ich es aber eben nicht manuell kann/konnte, nutze ich eben das Nerdpack um nur die paar interessanten Sachen per Klick rein zu bekommen.

 

26 minutes ago, alturismo said:

 

image.png.6e77c55b26e42b12e00792d3ed871ca2.png

alles was im Ordner extra liegt wird automatisch installiert beim Start, und da Nerd Tools nicht mehr wirklich aktualisiert wird ... nur als Info.

 

Wenn ich auf das Flashlaufwerk schaue habe ich gar keinen "extra" Ordner

Screenshot1:  1st System

Screenshot2:  2nd System

 

Tessaflash-extra----2022-08-04 13_12_00-UR-TESSA_Browse.png

SHipon-Flash-Extra----2022-08-04 13_13_36-UR-Shipon_Browse.png

Edited by DataCollector
Link to comment
  • 2 months later...

Es ist mal wieder soweit.


Ich will am unraid Server (1st System - Siehe Signatur unten) wieder etwas umbauen (Festplattentausch).
Deshalb wollte ich ihn abschalten.
Also habe ich alle Docker (krusader/ich777 + SabNZB) gestoppt. Docker "Disk location" war schon aus.
Meine einzige VM (Win10Pro 64Bit) habe ich ebenfalls ordnungsgemaess heruntergefahren.

Dann alle Platten per "Spin Up" anlaufen lassen und dann "Stop" gedrückt um das Array offline zu bringen und den Server dann spaeter manuell (Shutdwn) auszuschalten.

 

In der Vergangenheit hat das meist so funktioniert. Wenn das Array doch mal etwas länger brauchte um zu stoppen, reichte es einfach ein Terminalfenster zu öffnen.

 

Dieser etwas handarbeitslastige Ablauf hatte sich ergeben, weil das einfache Herunterfahren ohne vorher alles abzuwürgen meist hängen blieb (Array Stopping - Retry unmounting ....); siehe auch die ganze Diskussion oberhalb dieses Beitrages.

 

Tja, heute habe ich mal wieder einen Fall: es funktioniert nicht.

 

Nach dem ganzen Ablauf steckt der unraidServer mal wieder fest in "Array Stopping - Retry unmounting disk share(s)..." (siehe Bild unten)
Ich habe daneben dann auch das Terminalfenster auf gemacht und auch htop gestartet, aber ich erkennen nicht was da hängt.

Da ich dem System (nach nun mehr als 20 Minuten) immer noch Zeit lasse, falls es ja doch ordnungsgemaess das Array stoppen kann/will/wird, kann ich aktuell kein Syslog oder Diagnostig bieten.

 

Any idea?

 

STOPPING-Problem--2022-10-28 15_04_59-102 Tessa Main (TESSA-MAIN1064) – VNC Viewer.png

 

Edit:
Wie ich gerade gemerkt habe, kann ich Syslog und Diagnostics doch erzeugen, obwohl das System versucht zu stoppen.
Deshalb hänge ich die beiden Dateien (anonymisiert) auch noch an.

 

 

 

 

ur-tessa-syslog-20221028-1330.zip ur-tessa-diagnostics-20221028-1531.zip

Edited by DataCollector
Ergänzung um Syslog und Diagnostic
Link to comment

Kannst du auch selbst sichten. Letzte Zeilen:

 

Quote

Oct 28 15:30:38 UR-TESSA root: umount: /mnt/cache: target is busy.

 

Ich würde nun prüfen welche Prozesse diesen Pfad verwenden:

 

lsof /mnt/cache

 

Und prüfen welche Mounts noch existieren (vielleicht einer unterhalb von /mnt/cache?)

 

cat /proc/mounts

 

Auch mal mit "top" schauen, was so im Hintergrund läuft.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.