nVIDIA Tesla P100 Error 127 nach einiger Zeit


Gee1

Recommended Posts

Soweit ich weis hängt es damit zusammen das die karte nicht mehr aus dem Standby aufwachen kann. Meine Debian 12 VM geht dann auf allen Cores auf 100% und ich komme nicht mehr via SSH drauf - muss dann die VM force stopen. Sie lässt sich anschließend nicht mehr starten (Error 127) nur ein neustart des gesamten Servers bringt abhilfe. Es muss wohl irgendwas mit den Power State Commands zu tun haben die via VIRTIO nicht correkt oder garnicht an das Host System weiter geleitet werden. Ich nutze Q35 -7.1 für die VM... kennt jemand abhilfe?

 

Es soll wohl einen Kernel Patch geben. Ich nutze Unraid 6.12.4

 

Achja das VBIOS hab ich noch nicht gedumpt.. weis nicht ob das notwendig ist da es ja eine Tesla karte und keine GeForce mit Video Anschlüssen ist. Falls ja, muss man immer noch den Header aus dem VBIOS entfernen?

Edited by Gee1
Link to comment
3 hours ago, Gee1 said:

Es soll wohl einen Kernel Patch geben. Ich nutze Unraid 6.12.4

 

dann würde ich mal updaten auf die 6.12.6 ...

 

ansonsten wäre eine diagnostics sicher hilfreicher anstelle raten zu müssen.

 

3 hours ago, Gee1 said:

Achja das VBIOS hab ich noch nicht gedumpt.. weis nicht ob das notwendig ist da es ja eine Tesla karte und keine GeForce mit Video Anschlüssen ist. Falls ja, muss man immer noch den Header aus dem VBIOS entfernen?

wenn, dann ja ... hat sich nichts geändert.

Link to comment

kleiner Nachtrag ... wenn ich deinen Post aus dem vbios Thread sehe ist der auch so aussagekräftig wie ...

 

ist ja löblich dass du zumindest dort auch anfragst ... aber zumindest ein wenig mehr Infos wie "something" ...

 

image.thumb.png.13c37f2941f201ead40b9d1ea04c6a1e.png

 

wenn da schon ein Fehler kommt, warum schreibst du nicht zumindest den mal hin ... das wird doch so nichts ... oder was meinst du ?

Link to comment

ich bin davon ausgegangen das es sich hierbei um ein sehr bekanntes Phänomen handelt und bin von daher auch nicht weiter ins Detail gegangen

 

BTW ich habe auf 12.6 geupdated. Da sich die VM über Nacht aufhängt werd ich morgen sehen ob das was gebracht hat, aber ich denke nicht

Edited by Gee1
Link to comment
On 1/21/2024 at 8:04 PM, Gee1 said:

BTW ich habe auf 12.6 geupdated. Da sich die VM über Nacht aufhängt werd ich morgen sehen ob das was gebracht hat, aber ich denke nicht

und ... ?

 

sorry das ich nochmals darauf eingehe, aber auch hier ... (immer noch löblich dass die Suche benutzt wird, aber ohne logs, Infos, diagnostics, ...)

 

ein Thread wo vor über 2 1/2 Jahren was posted wurde (auch ohne Antwort des Erstellers) ... und dann das

 

image.thumb.png.acce1ac8f60a4584462343665a6f4dca.png

 

du wirst so nicht sonderlich weit kommen ... nicht bös gemeint, aber ein wenig mehr Infos bedarf es schon wenn man Hilfe erwartet ;)

Link to comment
  • 4 weeks later...
3 hours ago, Gee1 said:

das problem hat sich (warscheinlich durch das upgrade auf die neue Version) erledigt.

Tesla und GRID Karten unterstützen sleep nicht vollständig und das Verhalten das du siehst ist ganz normal wenn du denn die Karte in den sleep versetzt.

Wurde auch schon ein paar mal im Nvidia Driver Support thread gefragt.

 

4 hours ago, Gee1 said:

Hab jetzt n neues Problem.. werd mich später dazu äußern

Ich glaube es wäre für alle Beteiligten besser du äußerst dich gleich, aber du scheinst ja gerne in Rätseln zu sprechen was ich hier so lese... xD

Link to comment
10 hours ago, ich777 said:

Tesla und GRID Karten unterstützen sleep nicht vollständig und das Verhalten das du siehst ist ganz normal wenn du denn die Karte in den sleep versetzt.

Wurde auch schon ein paar mal im Nvidia Driver Support thread gefragt.

das Problem ist bei mir komischerweise behoben, aber dafür bin ich dankbar hab genug andere mit meinem "überladenen" Server

 

10 hours ago, ich777 said:

Ich glaube es wäre für alle Beteiligten besser du äußerst dich gleich, aber du scheinst ja gerne in Rätseln zu sprechen was ich hier so lese...

ja sicher.. hatte nur gestern Nacht nicht mehr die Muse das zu erklären.. kurz gesagt: Meine Win 10 VM freezed aller paar Sekunden für ca 250ms (fällt beim Film oder TV schauen auf) tritt unter Q35 und auch unter i440fx auf (wobei bei letzterem nur das Bild freezed nicht der Ton).. ich führe das auf den Einbau der drei Tesla karten zurück welche über einen ASM1806 Switch (1x PCIe 2.0 X2 zu 4x PCIe 2.0 x1) angebunden sind. Das Log (weder System noch VM Log) schmeist irgend einen Fehler der iwas mit dem PCIe Bus zu tu hätte.. aktuell bin ich mit meinem Latein am Ende und warte auf neuere Kernel Verionen für Unraid (wie du schon weist) udn auch QEMU 8.2 Ich habe die Hoffnung das sich das Problem dann auch erledigt

Link to comment
3 minutes ago, Gee1 said:

Latein am Ende und warte auf neuere Kernel Verionen für Unraid

Ich frage mich was das bringen soll für eine durchgereichte GPU... :D

 

Das hat dann nichts mehr mit dem Host zu tuhen, aber du spielst hier auch mit Server hardware rum und das ist einfach ein Einsatzzwerck für die die Hardware die du hast nicht gemacht wurde.

Link to comment

na klar Server Hardware ist nicht für VMs gemacht xDD .. Die Teslas werden BTW nicht zur VM durchgeleitet und haben auch damit garnichts zutun.. Die Teslas sind für einen Docker.. Und fürs Gefühl isses schon besser auf nem halbwegs aktuellen Kernel zu sitzen. Und natürlich haben Kernel und QEMU den Haupteinfluss darauf wie die gesamter hardware und auch das durchleiten von Hardware gehandelt wird, du steckst doch auch tief drin das solltest du eig wissen

Edited by Gee1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.