unraid freeze tous les 3/4j


Go to solution Solved by aerodomigue,

Recommended Posts

Bonsoir,

 

Ca va faire plus de 2 ans que j'utilise unraid comme système principale de mon serveur, depuis quelque temps je commence a avoir un problème de freeze du système, ca commence a ce produire tous les 3/4j. Ca doit bien faire 3 mois que j'ai ce problème et que je cherche mais la je commence a sécher. Quand le système freeze, plus aucune activité disque, réseaux. Obliger de `hard reset` le système. 

Actuellement la version de unraid est 6.10.3, (les problèmes on commencé sur la version 6.9.2), j'ai tenté de upgrade/downgrade les versions entre la 6.8.3 et la 6.10.3 (et les versions beta), changé de périphérique usb. J'ai fais un memTest de 2/3h (je testerai plus longtemps). 

 

Système:

intel i9 10900f

msi Z490M GAMING EDGE

64gb ram

nvidia Quadro NVS 295

 

3 disk 8t ironwolf

carte sas LSI SAS2308

 

carte réseaux 10gb (AQC100)

navet-diagnostics-20220622-0018.zip

Link to comment

Bonjour @aerodomigue et bienvenue sur le forum.

Je suis loin d'être un expert en linux ( :/  ) mais j'ai survollé tes logs et vu quelques trucs qui me semblent bizarres :

 

Jun 22 00:14:45 Navet kernel: ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PR00._CPC], AE_NOT_FOUND (20210730/psargs-330)
Jun 22 00:14:45 Navet kernel: ACPI Error: Aborting method \_SB.PR01._CPC due to previous error (AE_NOT_FOUND) (20210730/psparse-529)

Je dirais de regarder si ton BIOS n'a pas de mise à jour disponible ?

 

Jun 22 00:15:39 Navet avahi-daemon[7676]: Registering new address record for fe80::98c2:37ff:fed0:3a33 on veth615cd03.*.
Jun 22 00:15:39 Navet kernel: x86/PAT: freeipmi.plugin:14209 map pfn expected mapping type uncached-minus for [mem 0x9eb5b000-0x9eb5cfff], got write-back
Jun 22 00:15:39 Navet kernel: freeipmi.plugin[14209]: segfault at 0 ip 00007ff62ba8c698 sp 00007ffc2c9493a0 error 6 in libfreeipmi.so.17.2.3[7ff62ba39000+8d000]
Jun 22 00:15:39 Navet kernel: Code: 00 48 89 34 24 48 89 de 48 89 54 24 10 48 89 ef 48 89 4c 24 20 4c 89 44 24 28 64 48 8b 04 25 28 00 00 00 48 89 44 24 38 31 c0 <48> c7 01 00 00 00 00 e8 4c e8 fa ff 85 c0 0f 88 69 02 00 00 0f b6

Je ne sais pas ce que ça pourrait être, ni même si c'est lié à ton soucis, mais ça ne me semble pas super.

 

Après, les logs étant stockés en RAM comme tout l'OS, ce qui est arrivé avant et pendant les crashs est perdu au reboot.

Je te conseillerai d'activer un syslog server et de inclure ce fichier après le prochain crash/freeze.

  • Like 1
Link to comment
  • Solution

Merci de me répondre si vite ^^, je lance un syslog server pour récupérer les logs au prochain freeze.
Je tente aussi une maj du bios (il n'a jamais était a jour de mémoire), et pour les erreurs que tu as trouvé, elles ont toujours étaient la ...
La suite au prochain freeze


edit:
la mise a jour du bios a résolut l'erreur:
 

Jun 22 00:14:45 Navet kernel: ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PR00._CPC], AE_NOT_FOUND (20210730/psargs-330)
Jun 22 00:14:45 Navet kernel: ACPI Error: Aborting method \_SB.PR01._CPC due to previous error (AE_NOT_FOUND) (20210730/psparse-529)


a voir si ca va résoudre le problème.

update: 
je viens de voir passer une erreur (merci le server syslog avec l'alerte par mail)
 

Spoiler
Jun 22 09:35:59 Navet kernel: ------------[ cut here ]------------
Jun 22 09:35:59 Navet kernel: WARNING: CPU: 7 PID: 13067 at net/netfilter/nf_conntrack_core.c:1192 __nf_conntrack_confirm+0xb8/0x254 [nf_conntrack]
Jun 22 09:35:59 Navet kernel: Modules linked in: xt_connmark xt_mark nft_counter xt_comment nft_compat nf_tables wireguard curve25519_x86_64 libcurve25519_generic libchacha20poly1305 chacha_x86_64 poly1305_x86_64 ip6_udp_tunnel udp_tunnel libchacha xt_CHECKSUM ipt_REJECT nf_reject_ipv4 ip6table_mangle ip6table_nat iptable_mangle xt_nat xt_tcpudp vhost_net tun vhost vhost_iotlb tap veth macvlan xt_conntrack xt_MASQUERADE nf_conntrack_netlink nfnetlink xt_addrtype iptable_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 br_netfilter xfs md_mod zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) nct6683 ip6table_filter ip6_tables iptable_filter ip_tables x_tables bonding atlantic r8169 realtek btusb btrtl btbcm x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm crct10dif_pclmul crc32_pclmul crc32c_intel ghash_clmulni_intel aesni_intel crypto_simd cryptd wmi_bmof mxm_wmi rapl btintel intel_cstate nvme tpm_crb bluetooth mpt3sas intel_uncore i2c_i801 i2c_smbus
Jun 22 09:35:59 Navet kernel: i2c_core nvme_core ecdh_generic ecc ahci video tpm_tis libahci raid_class tpm_tis_core scsi_transport_sas intel_pch_thermal thermal fan backlight wmi tpm button acpi_tad acpi_pad [last unloaded: atlantic]
Jun 22 09:35:59 Navet kernel: CPU: 7 PID: 13067 Comm: kworker/7:1 Tainted: P           O      5.15.46-Unraid #1
Jun 22 09:35:59 Navet kernel: Hardware name: Micro-Star International Co., Ltd. MS-7C76/MPG Z490M GAMING EDGE WIFI (MS-7C76), BIOS 2.C0 03/29/2022
Jun 22 09:35:59 Navet kernel: Workqueue: events macvlan_process_broadcast [macvlan]
Jun 22 09:35:59 Navet kernel: RIP: 0010:__nf_conntrack_confirm+0xb8/0x254 [nf_conntrack]
Jun 22 09:35:59 Navet kernel: Code: 89 c6 48 89 44 24 18 e8 53 e4 ff ff 44 89 f2 44 89 ef 89 c6 89 c5 e8 2c e8 ff ff 84 c0 75 9f 49 8b 87 80 00 00 00 a8 08 74 19 <0f> 0b 89 ee 44 89 ef 45 31 e4 e8 dc df ff ff e8 ae e4 ff ff e9 71
Jun 22 09:35:59 Navet kernel: RSP: 0018:ffffc900002dcd08 EFLAGS: 00010202
Jun 22 09:35:59 Navet kernel: RAX: 0000000000000188 RBX: ffffffff828e1500 RCX: 0000000000000000
Jun 22 09:35:59 Navet kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: ffffffffa03c4c20
Jun 22 09:35:59 Navet kernel: RBP: 0000000000027e78 R08: 9c849d61576313a4 R09: 364b17a2a2895d6a
Jun 22 09:35:59 Navet kernel: R10: aeb51b258bd15144 R11: a4e184a2348a8701 R12: 0000000000000d9b
Jun 22 09:35:59 Navet kernel: R13: 0000000000000d9b R14: 0000000000000000 R15: ffff888718ffdb80
Jun 22 09:35:59 Navet kernel: FS:  0000000000000000(0000) GS:ffff88903d9c0000(0000) knlGS:0000000000000000
Jun 22 09:35:59 Navet kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jun 22 09:35:59 Navet kernel: CR2: 00007f036e34f000 CR3: 00000002856a0001 CR4: 00000000007706e0
Jun 22 09:35:59 Navet kernel: PKRU: 55555554
Jun 22 09:35:59 Navet kernel: Call Trace:
Jun 22 09:35:59 Navet kernel: <IRQ>
Jun 22 09:35:59 Navet kernel: nf_conntrack_confirm+0x26/0x3f [nf_conntrack]
Jun 22 09:35:59 Navet kernel: nf_hook_slow+0x3b/0x93
Jun 22 09:35:59 Navet kernel: ? ip_protocol_deliver_rcu+0x135/0x135
Jun 22 09:35:59 Navet kernel: NF_HOOK.constprop.0+0x73/0xce
Jun 22 09:35:59 Navet kernel: ? ip_protocol_deliver_rcu+0x135/0x135
Jun 22 09:35:59 Navet kernel: ip_sabotage_in+0x49/0x59 [br_netfilter]
Jun 22 09:35:59 Navet kernel: nf_hook_slow+0x3b/0x93
Jun 22 09:35:59 Navet kernel: ? ip_rcv_finish_core.constprop.0+0x358/0x358
Jun 22 09:35:59 Navet kernel: NF_HOOK.constprop.0+0x73/0xce
Jun 22 09:35:59 Navet kernel: ? ip_rcv_finish_core.constprop.0+0x358/0x358
Jun 22 09:35:59 Navet kernel: __netif_receive_skb_one_core+0x79/0x9a
Jun 22 09:35:59 Navet kernel: process_backlog+0xab/0x143
Jun 22 09:35:59 Navet kernel: __napi_poll.constprop.0+0x27/0x114
Jun 22 09:35:59 Navet kernel: net_rx_action+0xe8/0x1f2
Jun 22 09:35:59 Navet kernel: __do_softirq+0xec/0x218
Jun 22 09:35:59 Navet kernel: do_softirq+0x50/0x68
Jun 22 09:35:59 Navet kernel: </IRQ>
Jun 22 09:35:59 Navet kernel: <TASK>
Jun 22 09:35:59 Navet kernel: netif_rx_ni+0x53/0x85
Jun 22 09:35:59 Navet kernel: macvlan_broadcast+0x116/0x144 [macvlan]
Jun 22 09:35:59 Navet kernel: macvlan_process_broadcast+0xc7/0x110 [macvlan]
Jun 22 09:35:59 Navet kernel: process_one_work+0x195/0x27a
Jun 22 09:35:59 Navet kernel: worker_thread+0x19c/0x240
Jun 22 09:35:59 Navet kernel: ? rescuer_thread+0x28b/0x28b
Jun 22 09:35:59 Navet kernel: kthread+0xdc/0xe3
Jun 22 09:35:59 Navet kernel: ? set_kthread_struct+0x32/0x32
Jun 22 09:35:59 Navet kernel: ret_from_fork+0x1f/0x30
Jun 22 09:35:59 Navet kernel: </TASK>
Jun 22 09:35:59 Navet kernel: ---[ end trace 8494407648b13cf1 ]---

 


qui est due (d'après d'autre personne qui ont eu la même erreur ) a `Docker custom network type` dans les paramètres docker

 

 

Edited by aerodomigue
nouveau kernel error
  • Like 1
Link to comment
On 6/22/2022 at 12:37 AM, aerodomigue said:

Bonsoir,

 

Ca va faire plus de 2 ans que j'utilise unraid comme système principale de mon serveur, depuis quelque temps je commence a avoir un problème de freeze du système, ca commence a ce produire tous les 3/4j. Ca doit bien faire 3 mois que j'ai ce problème et que je cherche mais la je commence a sécher. Quand le système freeze, plus aucune activité disque, réseaux. Obliger de `hard reset` le système. 

Actuellement la version de unraid est 6.10.3, (les problèmes on commencé sur la version 6.9.2), j'ai tenté de upgrade/downgrade les versions entre la 6.8.3 et la 6.10.3 (et les versions beta), changé de périphérique usb. J'ai fais un memTest de 2/3h (je testerai plus longtemps). 

 

Système:

intel i9 10900f

msi Z490M GAMING EDGE

64gb ram

nvidia Quadro NVS 295

 

3 disk 8t ironwolf

carte sas LSI SAS2308

 

carte réseaux 10gb (AQC100)

navet-diagnostics-20220622-0018.zip 111.29 kB · 2 downloads

bonjour, tu utilise Plex ? Si oui quelle version ?

Link to comment
5 hours ago, aerodomigue said:

j'utilise bien Plex, la version utilisé c'est la dernière de `ghcr.io/linuxserver/plex` sois la 1.27.1.5916


Bon, j'ai eu exactement le même souci que toi, les dernières versions de plex sont foireuses elles consomment un peu plus de ram chaque jour lorsqu'il transcode, et puis au bout de 4 ou 5 jours il "crashe" lamentablement et mets tout le serveur en carafe, plus d'activité disque, plus de réseau, plus de ssh, plus rien... Obligé de rebooter.

Y'a une solution à ça, c'est de "downgrader" plex à la dernière version fonctionnelle sur Unraid, la version 1.24.5.5173.

Je peux t'indiquer la marche à suivre, je te préviens la première fois c'est assez stressant car quand tu downgrade la base de données de la bibliothèque se restructure et pendant une bonne dizaine de minutes (selon la taille de ta bibliothèque) ton serveur plex ne répondra pas, ne t'indiquera aucun message, et l'interface de plex t'affichera des liens cassés...

Surtout pas de panique et surtout pas d'arrêt ou de redémarrage du container au risque de vraiment casser la base de données de plex, faut juste attendre, tout rentrera dans l'ordre dans quelques minutes...

 

Avant le downgrade un petit conseil, tu vas dans les paramètres de Plex, "Dépannage", puis tu fais "NETTOYER LES BUNDLES", et ensuite "OPTIMISER LA BASE DE DONNÉES", une fois que c'est fini tu peux passer au downgrade de la version de Plex :

Rendez vous dans la section "Docker", tu cliques sur l'icône du container Plex, puis sur "Modifier", ensuite tu te retrouve sur "
Mettre à jour le Conteneur", avec tous les réglages du container, pour choisir la bonne version tu vas dans "Référentiel:" et tu mets :

linuxserver/plex:version-1.24.5.5173-8dcc73a59


Ensuite tu fais "APPLIQUER" et "TERMINER", et tu es patient pendant le downgrade de la base de données...

Une fois que ton Plex est en version 1.24.5.5173 surtout évite les mises à jour tant que le souci du plantage lors du transcodage n'est pas résolu, et surtout ne te précipite pas, ça fait plus de 6 mois que toutes les nouvelles versions de Plex sont foireuses...

Donc, vaut mieux rester sur la version 1.24.5.5173 tant que les autres n'ont pas testé avant...

Edited by doobyns
  • Like 1
Link to comment

Bon a savoir je ne savais pas que plex avais une fuite de mémoire. Mais je ne pense pas que plex fasse freeze mon serveur, car il tourne dans un container avec de la ram limité (2gb), comme certain de mes container (afin d'éviter les problème de container qui grossissent a l'infinie, genre un certain deluge avec plus de 500 torrents actifs 😑 ). Et au niveau du monitoring du serveurs (genre netdata grafana, ...) la ram n'est pas saturé au moment du freeze (toujours 80% d'usage, c'est zfs qui consomme le plus 😁 ).  Mais je prend note et je surveille, si le serveur freeze encore, je testerai avec la version que tu as spécifié 😀

 

 

Mais pour le moment le serveur tourne sans problème (deja 2 jours 13h), je mettrai une update lundi et dans 7j de uptime (sois jeudi) et avant si il plante 😒

Update:
On est lundi est toujours aucun plantage, la ram est bonne et aucune erreur majeur dans les logs sauf 
 

Jun 25 17:42:51 Navet kernel: x86/PAT: freeipmi.plugin:12820 map pfn expected mapping type uncached-minus for [mem 0x7eb5a000-0x7eb5bfff], got write-back
Jun 25 17:42:51 Navet kernel: freeipmi.plugin[12820]: segfault at 0 ip 00007fd77b1d6698 sp 00007ffe8437b900 error 6 in libfreeipmi.so.17.2.3[7fd77b183000+8d000]
Jun 25 17:42:51 Navet kernel: Code: 00 48 89 34 24 48 89 de 48 89 54 24 10 48 89 ef 48 89 4c 24 20 4c 89 44 24 28 64 48 8b 04 25 28 00 00 00 48 89 44 24 38 31 c0 <48> c7 01 00 00 00 00 e8 4c e8 fa ff 85 c0 0f 88 69 02 00 00 0f b6

 mais je pense savoir d'ou elle vient, surement de netdatat qui essaye au démarrage de faire un appel qui ne passe pas (il y a 3 fois cette erreurs le même jours, et bizarre le même jour ou j'ai cette erreur j'ai redémarré 3 fois netdata)


Update 2:
ça fais un mois est toujours pas un problème en vue, il a l'air enfin stable 😁

Edited by aerodomigue
Update du lundi
  • Like 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.