RTX 3060 Ti im nvidia-persistenced wird bis zu 60°C und Strom verbrach geht auf 15W


Recommended Posts

So erste eindrücke von nach dem zweiten neustart weil die nvme für die Windos VM nicht erkannt wurde. Sind die das, dass Grafikkarten Problem nach wievor besteht sie wird im Ruhezustand immer wärmer und der energie bedarf steigt.

Strom verbrach im gesamten werde ich dann morgen nochmal aus HomeAssistant posten.

grafik.thumb.png.8e6eb39ce0983472cd515cb34844bde6.png

grafik.thumb.png.94a0b8dbb7c8c7fcd3ea1503de3b6a4a.png

Link to comment
4 hours ago, Syrincs said:

Blöd gut Foto gemacht.

49 minutes ago, Syrincs said:

Fehler erkannt :) hab das append mal mit drin gelassen und der Server startet.

Ja, so sieht das besser aus, das amd_pstate=pasive gehört nach bzroot in die Zeile nicht drunter, sprich:

append initrd=/bzroot amd_pstate=passive

wenn du es denn schon nutzen willst.

 

Bitte prüf den Verbrauch an der Steckdose, die Power readouts sind meines wissens verbuggt bei der 30er serie wenn ich mich nicht täusche.

Link to comment

naja, ich sehe jetzt + 1W, korrekt ?

 

+/- 1W kann auch leicht schwanken ...

 

was mich wundert, keine VM mehr vorhanden ?

 

und hast du das mal getestet, nach Neustart 1x VM passthrough gestartet, dann gestoppt ?

 

und output heute, morgen früh, morgen Abend von

 

nvidia-smi

 

wenn da nichts passiert ...

 

Temp an sich kann auch "von außen" kommen, je nachdem wie das Gehäuse belüftet ist ... staut es sich ... bin gespannt ...

Link to comment
9 minutes ago, alturismo said:

naja, ich sehe jetzt + 1W, korrekt ?

 

+/- 1W kann auch leicht schwanken ...

 

was mich wundert, keine VM mehr vorhanden ?

 

und hast du das mal getestet, nach Neustart 1x VM passthrough gestartet, dann gestoppt ?

 

und output heute, morgen früh, morgen Abend von

 

nvidia-smi

 

wenn da nichts passiert ...

 

Temp an sich kann auch "von außen" kommen, je nachdem wie das Gehäuse belüftet ist ... staut es sich ... bin gespannt ...

grafik.thumb.png.6a166ea5523072ab51b670b2118f2804.png

1Watt wäre ja ok aber nun haben wir schon wieder 4 Watt zu der Temperatur unter 40°C

 

nvidia-smi zeigt das selbe an.

grafik.png.0d249d0e8ac33ca47ad099d0b9b7091b.png

 

und da ich sobald ich die karte aktiviere und die Lüfter der karte drehen bis ich sie wieder in den schlaf versetze die Temperatur wieder unter 40°C fäldt und der verbrauch auch und dies ja schon im gesamten über die Steckdose bestätigt bekommen habe ist das natürlich rätzelhaft. Und wenn ich den Lüfter wieder einbau ist es ja so das sich der Verbrauch bei 10Watt einpegelt. Diese Watt differenz war auch über die Steckdose offensichtlich.

 

Ich lasse den Lüfter mal bis morgen weg und zeige euch die Ergebnisse. Danke für die Unterstützung.

Jetzt hat die Karte schon wieder 59°C nun gibts eine abweichung der zwei Kontrollmetoden.

grafik.thumb.png.690d36f72b294ed1cebdc8c0f49fbe54.png

 

 

Link to comment
Posted (edited)

Hab gerade den Server noch mal neugestartet da die nvme für die win VM nicht mehr da war. Vorhin nach server start war sie da mal sehen wie das morgen früh aus schaut.

 

 

grafik.thumb.png.55f286efaf23274e942d89f591fd25b2.png

 

Und die Grafikkarte ist wieder kühler und zieht nur 8 Watt.

 

grafik.thumb.png.468a603e7a2bb4ffd997427ac7ab6603.png

Edited by Syrincs
Link to comment
22 minutes ago, Syrincs said:

Grundverbrauch ist höher.

naja ... ich würde jetzt mal raten hier werden subjektive Zusammenhänge ...

 

image.thumb.png.584b3e12ac436ad35b2f24204bd28d2f.png

 

deine Karte wird wärmer, da gehe ich mit, Belüftung Gehäuse und co ... Stau ... eher normales Verhalten

 

wenn ich mir jetzt den Strich anschaue ... sehe ich eher normales Verhalten und das sind deine Dienste die mal mehr oder weniger brauchen ...

 

nach Neustarts dauert es auch gerne ne Weile bis sich alles eingependelt hat, usw usw ...

 

was ich bestätigen kann, es gibt Karten welche nach einem Neustart trotz persistence mode mehr brauchen bis diese mal wirklich on / off waren (VM an / aus)

 

Beispiel

 

image.thumb.png.a82055c2b0afe9921109c8af24f93224.png

 

die Karte hat im Idle 4W, nach Neustart 7-8W ... erst wenn 1x die VM an / aus war ... steht Sie bei den spürbaren 4W anstelle 7-8W ...

 

aber ab jetzt bleibt das alles so stehen ... ;)

 

wie gesagt, das passt so rein physikalisch nicht zusammen ... zum ernsthaften Test müsstest die Maschine "blank" laufen lassen, ohne plugins, ohne Docker, ohne Array ... um das zu belegen, was ich sehe ist wie erwähnt ein subjektiver Zusammenhang ... warum der Wert der gezeigten W bei Dir steigt ... steht auf einem anderen Blatt.

Link to comment
11 minutes ago, Syrincs said:

Docker Dienste sind aus Nvidia geweckt und wieder einschlafen lassen. Nächste Fotos vom Handy wenn mein Wireguad funktioniert.

wenn jetzt alles "stehen" bleibt bei den 7W ... dann ist es ein Docker Dienst der die Karte mal "geweckt" hat, Bsp. encoding ...

 

die Karte bleibt zwar in p8 ... aber der interne state ist trotzdem höher, auch das kann ich bestätigen ... wenn ich beispielsweise mal mit nvenc encode ist bei mir abschließend dazu einmal wake / sleep eingebaut ....

 

image.thumb.png.db34449899ddec9f715ccf4b9d6a0766.png

 

dies aber nur wenn etwas die Karte aktiv angesprochen und genutzt hat, also nicht nötig wenn die nur im sleep ist ... ;)

 

hoffe auch dies war verständlich ...

 

Das wäre dann klar, aber dann müsstest du wissen welche/n Docker du mir nvidia runtime ggf. laufen hast ...

Link to comment
38 minutes ago, Syrincs said:

Hier noch mal ohne Docker Dienste

Bitte versteif dich nicht zu viel auf die readouts in nvidia-smi, ich hab doch oben geschrieben das die meistens verbuggt sind bei den 30er Karten.

 

BTW, hast du auf der Docker seite die Advanced View an? Mach die aus, das sind bei dir sicher auch nochmal 1 bis 2 Watt.

Machst du das eigentlich alles über Remote?

 

Es stimmt zwar wenn die Temperatur höher ist das die Karte ein paar mV mehr braucht aber das trifft nur zu wenn was drauf läuft sprich du grad irgendwas spielst. Im Idle sollte das keine 4 Watt aus machen <- das würde so um die 4 Watt aus machen wenn die unter Vollast läuft.

 

28 minutes ago, Syrincs said:

Ich hab mir nun jedoch ein weiteres Problem eingebaut die nvme der VM fliegt immer nach einer Zeit raus. Bekommt man diese wieder aufgeweckt ?

Neuen thread auf machen, das hat nichts mit dem Problem hier im Thread zu tuhen, hast du nochmal Diagnostics nachdem die NVME gedroppt ist? -> bitte im neuen Thread anhängen.

Link to comment
30 minutes ago, Syrincs said:

Das ist nicht subjektives siehe hier dder Verbrauch ist im schnitt 5 Watt höher.

 

naja, das ist von gestern früh zu heute

 

gestern früh bestand das Problem ja bereits ... danach hast du alle Powertop und co mal abgeschaltet zum debuggen ... denke das kommt eher daher.

 

mein Vergleich zielt von gestern Abend (Neustart, ok) zu heute früh (idle, nicht ok) ... da sehe ich keinen nennenswerten Unterschied.

 

wie gesagt, lass mal jetzt so ne Weile laufen ohne alles, was da der Verbrauch Gesamt sagt ... müsste ja dann auch um die 5 W hochgehen im Mittel ...

 

ansonsten, bliebe nur das etwas die Karte "aktiviert", kannst ja mal testen in der Shell, commands stehen ja oben um die Karte kurz wake / sleep zu setzen, dann müsste Sie ja wieder bei 7 W stehen und der Verbrauch in Summe wieder fallen ...

Link to comment
2 minutes ago, ich777 said:

Bitte versteif dich nicht zu viel auf die readouts in nvidia-smi, ich hab doch oben geschrieben das die meistens verbuggt sind bei den 30er Karten.

 

BTW, hast du auf der Docker seite die Advanced View an? Mach die aus, das sind bei dir sicher auch nochmal 1 bis 2 Watt.

Machst du das eigentlich alles über Remote?

 

Es stimmt zwar wenn die Temperatur höher ist das die Karte ein paar mV mehr braucht aber das trifft nur zu wenn was drauf läuft sprich du grad irgendwas spielst. Im Idle sollte das keine 4 Watt aus machen <- das würde so um die 4 Watt aus machen wenn die unter Vollast läuft.

 

Die Docker sehen die Meiste zeit so aus. Plex und TVheadend sind per dev/dri auf die AMD GPU eingestellt.

 

Die VM die die RTX nutzen soll ist eigentlich nur an wenn die Kinder da sind, so ist der Plan wenn es den mal läuft.

 

Ich werde einfach den Lüfter wieder an die Grafikkarte hängen und gut. Dann ist der Verbrauch ja stabile im idle.

 

image.png.48a0b5eb3f445f550f533b47b2828630.png

 

 

Link to comment
39 minutes ago, ich777 said:

BTW, hast du auf der Docker seite die Advanced View an? Mach die aus, das sind bei dir sicher auch nochmal 1 bis 2 Watt.

Machst du das eigentlich alles über Remote?

Wie meinst du das Advanced View?

 

Unraid läuft immer ohne Monitor, wenn die VM genutzt nur über Remote.

Link to comment
20 minutes ago, alturismo said:

Nein, jedenfalls nicht ohne Eingriffe ...

 

also, bau deinen Lüfter ein wenn du damit dein Problem gelöst bekommst.

Ja wird wohl so werden. Eine Idee hab ich noch kann man dein Skript oben auch nach der Temperatur im Sleep umschreiben?

Link to comment
3 hours ago, Syrincs said:

Ja wird wohl so werden. Eine Idee hab ich noch kann man dein Skript oben auch nach der Temperatur im Sleep umschreiben?

wenn du es schaffst

 

1/ die temps auszulesen (geht, nvidia-smi ... einlesen ...)

2/ das in ein script packen was alle x Minuten prüft, wenn ... dann ...

3/ das per userscripts ausführst

 

also kurz, ja ... wobei du noch die Antwort schuldig bist ob das was bewirkt, persistence on / off ... oder ich hab es überlesen ;)

 

aber jetzt bitte nicht hier anfragen was du dafür machen musst ;)

 

terminal, nvidia-smi -h ... Lernkurve annehmen, probieren ... 

 

um den Einstieg etwas zu erleichtern ...

 

root@AlsServer:~# nvidia-smi dmon -i 0 -s p -c 1
# gpu    pwr  gtemp  mtemp
# Idx      W      C      C
    0      4     42      -
root@AlsServer:~#

 

hier siehst du beispielsweise meine idle GPU 0 mit dem aktuellen Verbrauch 4W und der Temp 42°

 

jetzt mit awk usw reduzieren auf die 42 ... dann hast du den Wert welchen du als Basis nehmen musst um weiter zu entscheiden ob was ausgeführt werden soll oder nicht ... aber, weiter gehe ich jetzt nicht mehr weil du mehr kaputt machen kannst wie gewinnen ...

 

Und am Ende war ich es noch ;) ernsthaft, du hast soviel copy / paste gemacht (Bsp. go file) ohne Hintergrund ...

hast Issues und hängst jetzt ... ja, ist frustrierend, aber wer alles will sollte sich einlesen um zu verstehen was passiert wenn ...

das wenn es klemmt man sich selbst helfen kann ...

 

um es dir noch etwas leichter zu machen da ich es eh fertig habe, hier ein snippet aus meinem Sensoren script

 

nv_smi_0=`nvidia-smi dmon -i 0 -s p -c 1 | grep -i " 0 "`
[ -z "$nv_smi_0" ] && nv_smi_0="0 -1 -1"
nv_smi_0_power=`echo $nv_smi_0 | awk '{print $2}'`
nv_smi_0_temp=`echo $nv_smi_0 | awk '{print $3}'`

 

sollte selbsterklärend sein ... damit hast du W und Grad deiner Karte als Variable ....

root@AlsServer:~# nv_smi_0=`nvidia-smi dmon -i 0 -s p -c 1 | grep -i " 0 "`
                [ -z "$nv_smi_0" ] && nv_smi_0="0 -1 -1"
                nv_smi_0_power=`echo $nv_smi_0 | awk '{print $2}'`
                nv_smi_0_temp=`echo $nv_smi_0 | awk '{print $3}'`

root@AlsServer:~# echo $nv_smi_0_power
4
root@AlsServer:~# echo $nv_smi_0_temp
42
root@AlsServer:~#

 

hier können ab jetzt andere gerne übernehmen wenn Lust ;)

 

viel Erfolg dabei.

Link to comment
12 hours ago, alturismo said:

wenn du es schaffst

 

1/ die temps auszulesen (geht, nvidia-smi ... einlesen ...)

2/ das in ein script packen was alle x Minuten prüft, wenn ... dann ...

3/ das per userscripts ausführst

 

also kurz, ja ... wobei du noch die Antwort schuldig bist ob das was bewirkt, persistence on / off ... oder ich hab es überlesen ;)

 

aber jetzt bitte nicht hier anfragen was du dafür machen musst ;)

 

terminal, nvidia-smi -h ... Lernkurve annehmen, probieren ... 

 

um den Einstieg etwas zu erleichtern ...

 

root@AlsServer:~# nvidia-smi dmon -i 0 -s p -c 1
# gpu    pwr  gtemp  mtemp
# Idx      W      C      C
    0      4     42      -
root@AlsServer:~#

 

hier siehst du beispielsweise meine idle GPU 0 mit dem aktuellen Verbrauch 4W und der Temp 42°

 

jetzt mit awk usw reduzieren auf die 42 ... dann hast du den Wert welchen du als Basis nehmen musst um weiter zu entscheiden ob was ausgeführt werden soll oder nicht ... aber, weiter gehe ich jetzt nicht mehr weil du mehr kaputt machen kannst wie gewinnen ...

 

Und am Ende war ich es noch ;) ernsthaft, du hast soviel copy / paste gemacht (Bsp. go file) ohne Hintergrund ...

hast Issues und hängst jetzt ... ja, ist frustrierend, aber wer alles will sollte sich einlesen um zu verstehen was passiert wenn ...

das wenn es klemmt man sich selbst helfen kann ...

 

um es dir noch etwas leichter zu machen da ich es eh fertig habe, hier ein snippet aus meinem Sensoren script

 

nv_smi_0=`nvidia-smi dmon -i 0 -s p -c 1 | grep -i " 0 "`
[ -z "$nv_smi_0" ] && nv_smi_0="0 -1 -1"
nv_smi_0_power=`echo $nv_smi_0 | awk '{print $2}'`
nv_smi_0_temp=`echo $nv_smi_0 | awk '{print $3}'`

 

sollte selbsterklärend sein ... damit hast du W und Grad deiner Karte als Variable ....

root@AlsServer:~# nv_smi_0=`nvidia-smi dmon -i 0 -s p -c 1 | grep -i " 0 "`
                [ -z "$nv_smi_0" ] && nv_smi_0="0 -1 -1"
                nv_smi_0_power=`echo $nv_smi_0 | awk '{print $2}'`
                nv_smi_0_temp=`echo $nv_smi_0 | awk '{print $3}'`

root@AlsServer:~# echo $nv_smi_0_power
4
root@AlsServer:~# echo $nv_smi_0_temp
42
root@AlsServer:~#

 

hier können ab jetzt andere gerne übernehmen wenn Lust ;)

 

viel Erfolg dabei.

Hi, danke für deine Impressionen und auch danke für die viele Hilfe. Ich werde mir das mal anschauen bei Gelegenheit. 

Link to comment
12 hours ago, alturismo said:
nv_smi_0=`nvidia-smi dmon -i 0 -s p -c 1 | grep -i " 0 "`
[ -z "$nv_smi_0" ] && nv_smi_0="0 -1 -1"
nv_smi_0_power=`echo $nv_smi_0 | awk '{print $2}'`
nv_smi_0_temp=`echo $nv_smi_0 | awk '{print $3}'`

Wo kann ich mich hierzu einlesen was du hier gemacht hast? Ist ja schon ersichtlich das ich von diesen Sachen keine Ahnung habe. Aber wenn man wissen und verstehen will was andere hier machen gebe ich dir völlig recht muss man sich einlesen. Aber wo und was brauch ich genau?

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.