Jump to content

/var/log 100% nach Update auf 6.12


jluerken
Go to solution Solved by jluerken,

Recommended Posts

Guten Morgen,

 

nach dem Update auf 6.12 ist /var/log zu 100% voll. Reboot hilft nicht.

Quote

Jun 16 07:58:08 Unraid kernel: pcieport 0000:00:1b.0: AER: Corrected error received: 0000:02:00.0
Jun 16 07:58:08 Unraid kernel: pcieport 0000:00:1b.0: AER: Corrected error received: 0000:02:00.0
Jun 16 07:58:08 Unraid kernel: ahci 0000:02:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, (Transmitter ID)
Jun 16 07:58:08 Unraid kernel: ahci 0000:02:00.0:   device [1b4b:9215] error status/mask=00001000/00002000
Jun 16 07:58:08 Unraid kernel: ahci 0000:02:00.0:    [12] Timeout               
Jun 16 07:58:08 Unraid kernel: pcieport 0000:00:1b.0: AER: Corrected error received: 0000:02:00.0
Jun 16 07:58:08 Unraid kernel: pcieport 0000:00:1b.0: AER: Corrected error received: 0000:02:00.0
Jun 16 07:58:08 Unraid kernel: pcieport 0000:00:1b.0: AER: Corrected error received: 0000:02:00.0

 

Es wäre nett wenn ich da Hilfe bekommen könnte.

unraid-diagnostics-20230616-0759.zip

Edited by jluerken
Link to comment

Du hast ASPM deaktiviert, was den Stromverbrauch negativ beeinflusst und du unterdrückst die Fehlermeldungen. Nichts davon ist wirklich eine Problemlösung. In der Kombination schon gar nicht. Denn wenn das eine die Fehlermeldungen verhindert, brauchst du sie ja nicht unterdrücken.

 

Du solltest mal checken was 0000:00:1b.0 und 0000:02:00.0 für PCIe Geräte sind. Auch mal nach BIOS Updates suchen. Und sonst auch bei den entsprechenden Stellen Bug Reports aufmachen (Board-Hersteller, OS Hersteller, Geräte Hersteller, wen es auch immer betreffen sollte).

  • Like 1
Link to comment
10 hours ago, mgutt said:

und du unterdrückst die Fehlermeldungen. Nichts davon ist wirklich eine Problemlösung.

Wie ich dir schon mehrere male versucht habe zu erklären, das ist ein Bug im Kernel und tritt nur manchmal in Verbindung mit diversen Geräten auf.

 

pci=noaer ist eine valide Lösung da diese Fehlermeldung das eigentliche Problem auslöst wo eingetlich keines ist.

Link to comment
48 minutes ago, ich777 said:

das ist ein Bug im Kernel

Was nicht stimmt:

https://bugzilla.kernel.org/show_bug.cgi?id=201517

 

Das einzige was man gemacht hat, ist die Menge an Fehlern und den Typ auf Warning zu reduzieren. Von Seiten des Kernels wird man nichts mehr machen, weil der Fehler bei der Hardware zu suchen ist. Und wenn man halt alles an Meldungen unterdrückt und keinen Report beim Hersteller aufmacht, wird sich ganz sicher nichts daran ändern. Mag sein, dass bei 1 Millionen Fehlern nur 1 nicht korrigiert wird und die Kiste dann in 10 Jahren nur 1x abschmiert und man dann eben neu startet, aber das einfach nicht meine Philosophie. Kenne ich auch von Berufswegen, dass man lieber den ökonomischen Weg wählt. Da bin ich einfach zu pedantisch veranlagt. 🤷

Link to comment
6 hours ago, mgutt said:

Von Seiten des Kernels wird man nichts mehr machen, weil der Fehler bei der Hardware zu suchen ist. Und wenn man halt alles an Meldungen unterdrückt und keinen Report beim Hersteller aufmacht, wird sich ganz sicher nichts daran ändern.

Aber genau hier liegt das Problem, wenn diese Meldung generiert wird dann wird eine Fehlerkorrektur vom Kernel ausgelöst und hier liegt das riesen Problem weil die Fehlerkorrektur sowieso vom PCIe Bus erledigt wird, das wiederum kann bei Geräten Probleme verursachen wie zB schlechte Performance, das Gerät fällt vom Bus usw.

 

Meistens liegt es an der Firmware vom Motherboard und gewisser Hardwarekombinationen das dieser Fehler im Syslog auftaucht.

 

Es geht hier nicht um den Fehler zu verstecken, dies ist wie gesagt eine valide Lösung für Beispielsweise TV Karten da die Karte dann nocht richtig funktioniert, das wird sich auch im Kernel nicht ändern.

Link to comment

Ich habe eine zusätzliche Grafikkarte im System und eine zusätzliche Netzwerkkarte mit zwei Ports.

Die Netzwerkkarte läuft im Bonding Betrieb und funktioniert einwandfrei, die Grafikkarte habe ich derzeit nirgendwo eingebunden d.h. evtl. liegt es daran.

Mich wundert halt das es mit 6.11 nicht zu dem Fehler kam.

Das System hat übrigens das aktuellste Hersteller Bios.

Bisher konnte ich durch Unterdrückung der Fehlermeldung kein Problem feststellen. 

Evtl. werde ich die Karten mal nacheinander ausbauen um zu sehen von welcher genau der Fehler kommt.

Die Kernelmeldungen sind da leider - zumindest für einen Laien - wenig hilfreich.

 

Link to comment

Danke mgutt für den Tipp:

[1b4b:9215] 02:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9215 PCIe 2.0 x1 4-port SATA 6 Gb/s Controller (rev 11)

 

Sieht so aus als mag 6.12 meinen zusätzlichen SATA Controller nicht. Eine Idee wie ich das Problem dann lösen und nicht nur ausblenden kann?

Dafür einen Fix vom Hersteller zu erhalten schließe ich aus ^^

Link to comment
8 hours ago, jluerken said:

[1b4b:9215] 02:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9215 PCIe 2.0 x1 4-port SATA 6 Gb/s Controller (rev 11)

Die Antwort ist einfach: Wegwerfen. Von Marvell Treibern hört man im Linux Universum immer wieder von Problemen, weshalb Limetech auch grundsätzlich davon abrät. Aktuell die beste Option ist eine Karte mit ASM1166. Optimal sogar, wenn man das Firmware Update installiert (geht leider nur unter Windows), dann unterstützt die Karte auch AHCI DIPM, ist also sehr stromsparend.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...