Jump to content

[SOLVED] DebianBuster-Nvidia Docker: Seit Update auf 6.9.1 nicht mehr per VNC erreichbar!


JoergHH

Recommended Posts

@ich777:

Seit ich auf Unraid 6.9.1 upgedated habe, ist der VNC des Dockers nicht mehr erreichbar. 

Vor dem Starten ist noch alles okay:

Zwischenablage01.thumb.png.d751ffe9f61a5bd0320eb497590bf22d.png

Zwischenablage02.thumb.png.ac361c1fa989765adde34b4e720cfda6.png

 

Der Docker startet zwar, aber mit irgend etwas hat der X11 (?) Probleme:

 

---Checking if UID: 99 matches user---
---Checking if UID: 99 matches user---
---Checking if GID: 100 matches user---
---Setting umask to 000---
---Checking for optional scripts---
---No optional script found, continuing---
---Trying to get Nvidia device address---
---Successfully got device ID: 01:00:0---
---Trying to get Nvidia driver version---
---Successfully got driver version: 460.56---
---Checking Xwrapper.config---
---Configuring Xwrapper.config---
---Version missmatch, deleting local Nvidia Driver v460.56

-
rm: cannot remove '/debian/NVIDIA_460.56': No such file or directory
rm: cannot remove '455.45.run': No such file or directory
---Found NVIDIA Driver v460.56 localy, installing...---
---Configuring Locales to: de_DE.UTF-8 UTF-8---
Generating locales (this might take a while)...
de_DE.UTF-8... done
de_DE.UTF-8... done
en_US.UTF-8... done
Generation complete.
---Checking configuration for noVNC---
/bin/bash: Warnung: setlocale: LC_ALL: Kann die Locale nicht ändern (de_DE.UTF-8).
Nothing to do, noVNC resizing set to default
Nothing to do, noVNC qaulity set to default
Nothing to do, noVNC compression set to default
---Starting...---
en_US.UTF-8... done
Generation complete.
---Checking configuration for noVNC---
/bin/bash: Warnung: setlocale: LC_ALL: Kann die Locale nicht ändern (de_DE.UTF-8).
Nothing to do, noVNC resizing set to default
Nothing to do, noVNC qaulity set to default
Nothing to do, noVNC compression set to default
---Starting...---
---Preparing Server---
---Checking for old logfiles---
---Checking for old lock files---
---Starting dbus service---
---dbus service started---
---Starting Xfce4---
---Starting x11vnc server---
---Starting noVNC server---
WebSocket server settings:
- Listen on :8080
- Flash security policy server
- Web server. Web root: /usr/share/novnc
- No SSL/TLS support (no cert file)
- Backgrounding (daemon)
---Starting Pulseaudio server---
----------------------------------------------------------------------------------------------------
Listing possible outputs and screen modes:

'Screen 0: minimum 8 x 8, current 1600 x 900, maximum 32767 x 32767
DVI-D-0 disconnected (normal left inverted right x axis y axis)
HDMI-0 connected 1600x900+0+0 (normal left inverted right x axis y axis) 0mm x 0mm
1024x768 60.00 +
1600x900 59.82*
1400x900 59.88
1368x768 59.88 59.85
1360x768 59.96 59.80
1280x800 59.91 59.81
1280x720 59.86 59.74
1152x864 60.00
1024x576 59.90 59.82
960x540 59.82 59.63
864x486 59.92 59.57
800x600 72.19 60.32 56.25
800x450 59.82
700x450 59.88
684x384 59.88 59.85
680x384 59.96 59.80
640x480 59.94
640x400 59.98 59.88
640x360 59.86 59.83
512x384 60.00
512x288 60.00 59.92
480x270 59.82 59.63
432x243 59.92 59.57
400x300 72.19
320x240 60.05
DP-0 disconnected (normal left inverted right x axis y axis)
DP-1 disconnected (normal left inverted right x axis y axis)'
----------------------------------------------------------------------------------------------------



---Looks like your highest possible output on: 'HDMI-0' is: '1600x900'---



---Trying to set the resolution to: '1600x900' on output: 'HDMI-0'---

-------------------------------------------------------------------------------
--------If you want to set the resolution manually please create a file--------
---------in /debian/.config/container.cfg with the following contents:---------
-------------------------------------------------------------------------------
Resolution: 1920x1080
Output: HDMI-0
--------------------------------------------------------------------------------
---Change the resolution and output to your specific configuration/preference---
--------------------------------------------------------------------------------

Current version of pixman: 0.36.0
Before reporting problems, check http://wiki.x.org
to make sure that you have the latest version.
Markers: (--) probed, (**) from config file, (==) default setting,
(++) from command line, (!!) notice, (II) informational,
(WW) warning, (EE) error, (NI) not implemented, (??) unknown.
(==) Log file: "/var/log/Xorg.0.log", Time: Thu Mar 11 15:40:47 2021
(==) Using config file: "/etc/X11/xorg.conf"
(==) Using system config directory "/usr/share/X11/xorg.conf.d"
xf86EnableIOPorts: failed to set IOPL for I/O (Operation not permitted)

 

Das Beenden des Dockers führt dazu, dass er sich nicht mehr starten lässt d. h. sofort mit Error terminiert und die GPU im Plugin auch "verschwindet". Nur ein Reboot des kompletten Servers stellt den Ausgangszustand wieder her.

 

Auf dem Server laufen keine weiteren Docker mit Anbindung an die GPU und VMs sind noch gar keine installiert.

 

Wie gesagt: Unter 6.9.0-RC und 6.9.0 Stable hat alles mit dem o. g. Parametern noch einwandfrei funktioniert.

 

 

Edited by JoergHH
Gelöst
Link to comment
26 minutes ago, ich777 said:

Genau den gleichen Fehler/Warnung hab ich auch in der Ausgabe aber sollte den container vom laufen nicht abhalten:

Was bekommst du bei noVNC angezeigt?

"Laufen" tut er ja mehr oder weniger.

Ich bekomme aber weder über noVNC noch über den von mir selbst hinzugefügten Standard VNC Port und TigerVNC einen Connect!

26 minutes ago, ich777 said:

Du startest aber Unraid nicht zufällig im GUI Mode?

Nein.

 

Vor dem Start des Dockers wurde mir die GPU noch über  'watch nvidia-smi' angezeigt.

Nach dem Start nun das:

 

 Every 2.0s: nvidia-smi                                                                  homeserver: Thu Mar 11 16:52:22 2021

Unable to determine the device handle for GPU 0000:01:00.0: GPU is lost.  Reboot the system to recover this GPU

 

Übrigens halte ich das Terminieren eines Dockers per Shell Killing für problematisch. In meinem Fall funktioniert das nicht einmal richtig bzw. immer d. h. trotz "Beenden" steht der Docker noch auf "Gestartet".

Wäre nicht ein sauberer Shutdown des Dockers besser?

Link to comment
7 minutes ago, JoergHH said:

"Laufen" tut er ja mehr oder weniger.

Naja wenn dir die GPU raus fällt läuft er ja eigentlich nicht weil er keine Ausgabe machen kann, schon mal probiert den Docker nochmal neu aus der CA App zu ziehen bzw. einen 2. aufzusetzen mit neuen sauberen Verzeichnissen?

 

8 minutes ago, JoergHH said:

Übrigens halte ich das Terminieren eines Dockers per Shell Killing für problematisch. In meinem Fall funktioniert das nicht einmal richtig bzw. immer d. h. trotz "Beenden" steht der Docker noch auf "Gestartet".

Wie meinst das? Welches beenden? Wenn du in der WebGUI auf beenden klickst oder innerhalb vom container.

 

Wo steht er noch auf gestartet? In der WebGUI von Unraid?

 

8 minutes ago, JoergHH said:

Wäre nicht ein sauberer Shutdown des Dockers besser?

Er macht doch einen sauberen shutdown, er fängt das Kill signal ab und dann beendet er die sauber die Xfce4 session.

Link to comment

Inzwischen habe den Server mit Unraid 6.9.1 frisch und neu aufgesetzt.

Es laufen nach wie vor keine VMs und an Plugins sind nur folgende installiert:

  • Community Applications
  • Nvidia Driver
  • Preclear Disks
  • Unassigned Devices
  • Unassigned Devices Plus
  • ZFS for unRAID 6

Ansonsten ist das System Plain Vanilla.

 

Das Problem/Fehlerverhalten besteht wie ausführlich beschrieben nach wie vor 😞

 

@ich777:Welche Log-Files brauchst Du um dem Fehler auf die Schliche zu kommen?

 

 

Link to comment
7 hours ago, JoergHH said:

@ich777:Welche Log-Files brauchst Du um dem Fehler auf die Schliche zu kommen?

Kannst mir die Diagnostics schicken (Tools -> Diagnostics -> Download) weil dort alle Informationen drin sind (auch Hardware Informationen), gerne auch per PN.

 

Versprechen kann ich nichts, ich werds mir definitv ansehen.

 

Vorher hat es einwandfrei funktioniert oder irre ich mich da? An der Hardware wurde wahrscheinlich auch nichts geändert nehme ich mal an.

Bootest du im Legacy oder UEFI Modus?

Link to comment
6 hours ago, ich777 said:

Kannst mir die Diagnostics schicken (Tools -> Diagnostics -> Download) weil dort alle Informationen drin sind (auch Hardware Informationen), gerne auch per PN.

 

Versprechen kann ich nichts, ich werds mir definitv ansehen.

Ich habe mal die Diags hier angehängt. Einmal den Status nach einem frischen Reboot und einmal nach Auftreten des/der Fehler.

Vielleicht hat ja auch noch jemand anderes Zeit sich das mal anzugucken.

6 hours ago, ich777 said:

Vorher hat es einwandfrei funktioniert oder irre ich mich da?

Unter dem 6.9.0-RC lief es einwandfrei.

Unter 6.9.0 und 6.9.1 Stable nicht mehr.

6 hours ago, ich777 said:

An der Hardware wurde wahrscheinlich auch nichts geändert nehme ich mal an.

Die HW ist exakt die selbe.

6 hours ago, ich777 said:

Bootest du im Legacy oder UEFI Modus?

Legacy.

 

Noch eine Ergänzung:

Nach dem heutigen Update des NVidia Driver Plugin auf 2021.03.17 komme ich nach Auftreten des o. g. Fehlers nicht mehr in die GUI des Plugins! Nach längerem Warten wird mir die Plugin-Seite http://192.168.0.200/Settings/nvidia-driver nur noch Weiß angezeigt.

Nur ein kompletter Neustart des Server macht die Plugin-Einstellungen wieder zugänglich.

 

diagnostics-20210317-1301-after_error.zip diagnostics-20210317-1254-clean_boot.zip

Link to comment
1 hour ago, JoergHH said:

Nach dem heutigen Update des NVidia Driver Plugin auf 2021.03.17 komme ich nach Auftreten des o. g. Fehlers nicht mehr in die GUI des Plugins!

Beim heutigen update wurde nichts an der Plugins Seite geändert, wurde nur was bei der Installation des Plugins beim booten geändert. Das betrifft aber dich bzw. die meisten User nicht, da das Plugin jetzt unterscheiden kann ob unRAID in den GUI Modus gebootet wurde oder nicht.

 

Das deutet auf jeden Fall auf ein Problem mit der Hardware hin da die Abfrage von nvidia-smi ins Timeout läuft bzw nicht vollständig abgeschlossen wird (kannst auch testen wenn du das gleich Problem wieder mal hast das du zB ein Terminal öffnest und 'nvidia-smi' eingibst dann sollte er auch hängen).

 

Ohne den Problem irgendwie zu verharmlosen oder mich darüber lustig zu machen aber das liest sich wirklich lustig im syslog (hab ich vorher auch noch nie so gesehen):

Mar 17 12:59:43 homeserver kernel: Uhhuh. NMI received for unknown reason 31 on CPU 0.
Mar 17 12:59:43 homeserver kernel: Do you have a strange power saving mode enabled?
Mar 17 12:59:43 homeserver kernel: Dazed and confused, but trying to continue
Mar 17 12:59:43 homeserver kernel: Uhhuh. NMI received for unknown reason 31 on CPU 0.
Mar 17 12:59:43 homeserver kernel: Do you have a strange power saving mode enabled?
Mar 17 12:59:43 homeserver kernel: Dazed and confused, but trying to continue

 

Hab den Fehler mal auf google gesucht, bei den meisten Einträgen wird geraten mal einen Memtest zu machen bzw. gehen von einem kommenden Hardwareproblem aus.

 

Kannst du mal versuchen auf die neueste Treiberversion 460.56 umzusteigen, was ich aus dem log sehe hast du die version 460.27.04 installiert.

 

Ich hab jetzt noch nicht nachgesehen aber gibt's evtl. ein BIOS update für deinen TERRA S1200RP, kannst evtl. mal versuchen das BIOS zurückzusetzen und Above 4G decoding im BIOS zu aktivieren?

 

Hast du irgendwas in die Richtung Emby/Plex/Jellyfin installiert, mich würde interessieren ob das Verhalten auch auftritt wenn du den NVENC/NVDEC ansprichst und die Grafikkarte auch vom Bus "fällt" (Jellyfin wäre hier evtl. eine alternative da es gratis ist, wenn du ein Video file brauchst hier kannst dir Kostenlose 4K Testfiles runterladen).

Link to comment
2 hours ago, ich777 said:

(...) kannst evtl. mal versuchen das BIOS zurückzusetzen (...)

Zack! Das war's - nun läuft es wieder!

 

So bei der groben Drübersicht in den CPU Settings ist mir nur aufgefallen, dass

Processor C3 (ACPI C2/C3) report to OS

jetzt auf "Disabled" steht. Vorher war es "Enabled". (Der C6 Wert steht immer noch auf "Enabled", aber damit scheint es nichts zu tun zu haben.)

 

Mir ist nur schleierhaft, weshalb der RC damit kein Problem hatte, wohl aber das Stable Release.

Ich bin zwar kein Linux Kernel Spezi, aber mir scheint es da Unterschiede im Handling zu geben.

 

Zumindest taucht jetzt auch

Mar 17 12:59:43 homeserver kernel: Uhhuh. NMI received for unknown reason 31 on CPU 0.
Mar 17 12:59:43 homeserver kernel: Do you have a strange power saving mode enabled?
Mar 17 12:59:43 homeserver kernel: Dazed and confused, but trying to continue

nicht mehr im Syslog auf.

 

Das Mainboard ist übrigens, anders als von Unraid bzw. Dir identifiziert, ein Intel Server-Mainboard S1200V3RPL.

Zu meiner Schande muss ich eingestehen, dass ich das komplette System gebraucht erworben und im BIOS keine Veränderungen vorgenommen habe. Naja, mit dem Unraid 6.9.0-RC lief es ja auch 😕

 

Vielen Dank @ich777 für Deine Hilfe und Deine guten Tipps! 👍🏆

 

  • Like 1
Link to comment
  • JoergHH changed the title to [SOLVED] DebianBuster-Nvidia Docker: Seit Update auf 6.9.1 nicht mehr per VNC erreichbar!

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...