hawihoney Posted October 2, 2021 Share Posted October 2, 2021 (edited) Wer nicht weiß was das Usenet ist oder sich nicht dafür interessiert: Bitte nicht lesen. --- Aus Langeweile wollte ich mir einen eigenen Usenet-Indexer in Python programmieren. Das lief auch so weit ganz gut, bis ich ein paar Berechnungen auf Basis der Daten eines einzelnen Tages durchführte. Danach war das Experiment ganz schnell beendet. Wen es interessiert - hier ein paar Eckdaten: Usenet Provider: Eweka Eweka Retention: 4.790 Tage Anzahl Groups/Gruppen: 111.117 Anzahl Messages/Artikel aller Groups/Gruppen: 492.544.548.539 Kalkulierte durchschnittliche Groesse eines Headers/Nachrichtenkopfs: 814 Bytes Kalkulierte Groesse aller Header/Nachrichtenkoepfe: 400.931.262.510.746 Bytes Exemplarische binaere Gruppe: alt.binaries.frogs Anzahl Messages/Artikel in der o.g. Group/Gruppe: 11.376.291.702 Kalkulierte Groesse aller Header/Nachrichtenkoepfe der o.g. Group/Gruppe: 9.260.301.445.428 Bytes ... und das ohne den eigentlichen Inhalt der Nachrichten ... Zur Erzeugung der NZB-Dateien werden nur die Header-Daten benötigt. Diese alleine, ohne den eigentlichen Nachrichteninhalt, kumulieren auf sagenhafte ca. 400 TB. Mein Respekt und Dank gilt daher den bekannten Indexern wie NZBIndex, NZBKing, BinSearch, etc... Keine Ahnung wie das die Indexer so eindampfen können, dass es überhaupt handbar wird. Edited November 26, 2022 by hawihoney Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.