Paperless-ng


Hoddl

Recommended Posts

32 minutes ago, Hoddl said:

so wie ich das verstanden habe kann das paperless nicht... so viel Hilfe und Arbeit für umsonst 😞

 

 

sorry, aber liest Du Dir auch die Docu durch ? weil dann hast du nichts verstanden ... aus der Doku (Link innerhalb der App !!!)

 

https://paperless-ng.readthedocs.io/en/latest/advanced_usage.html?highlight=folder#file-name-handling

 

wie bereits in deinem anderen Thread erwähnt, bei Problemen mit der App solltest du vielleicht erstmal dort auch suchen, bei Problemen im Zusammenhang mit unraid kann Dir hier gut geholfen werden ... aber offensichtlich interessierst Dich das nicht was in den App Hilfen steht ...

Link to comment

Zum Verstehen, wie Paperless-ng arbeitet - für Newbee von Newbee - (unter der Aufsicht von Forum-Experten....hi)

 

Ich nutze Paperless-ng gerade weil ich von meinen massenhaften (papier-)Ordnern weg will

Konzept:

- jedes Stück papier bekommt mit Kugelschreiber eine Seriennummer - angefangen bei 0001 für das erste Dokument

- alles papier wird dann gescannt mit der eingebauten OCR-Erkennung von Paperless-ng in seinem consume-Ordner

Hierdurch wird das Dokument ein pdf file und gleichzeitig in der Datenbank von Paperless-ng hinterlegt

- Dieses Dokument öffnet man jetzt im Webinterface von Paperless im Browser

- Man bekommt rechts dann das gescannte Dokument zu sehen und kann links in einem Dokument einzelheiten und Eigenschaften/Tags des dokuments manuell eingeben.

wie Titel/Name des documentes und vor allem auch die Seriennummer, die auch auf dem Dokument selbst ja draufgeschrieben ist...

 

Die Originaldokumente kommen bei mir dann in eine grosse DIN-A4 formatige Box, wo etwa 200 Seiten Papier reingehen - vorne auf der Box steht dann geschrieben z.B. Dokument 1 bis 77 in dieser Papierbox enthalten...

Physisch habe ich also anstatt massenhaft Leitzordner nur eine Box mit losen Blättern, die platzsparend an einem sicheren Platz für den Fall der Fälle noch aufbewahrt werden...

 

So was ist jetzt das besondere an Paperless-ng ?

 

Die Search engine om Dokumente (wenn es dann tausende werden wie bei mir!) sofort zu finden !!!

Eine Texteingabe "Pensionskasse" im search window findet wirklich alle damit zusammenhängende Dokumente! selbst wenn nirgendwo irgendein Dokument im Archiv ist was den namen Pensionskasse teilweise im Titel hat - oder auch nur im ganzen Text des Dokumentes - Pensionskasse kommt gar nicht vor !!!

Dennoch - nach und nach und je mehr Dokumente gescannt sind, wird Paperless-ng immer schlauer! Das kommt durch die machine-lerning engine, wo Paperless-ng beigebracht wurde, das zum Beispiel das Wort "Bundesversicherungsanstalt für Angestellte" im Text vom 24seitigen Dokument 3029 thematisch etwas mit dem TAG Pensionskasse zu tun hat...

Es wird also dann auch Doc.nr 3029 gefunden, obwohl Pensionskasse als wort gar nicht vorkommt !!

 

Toll, nicht wahr ?!

 

Bei vielen Dokumenten ist eine grosse Box mit solch starker Such-Engine 1000...mal effizienter als ein Ordner-Karteisystem... Das hat man in den 50er Jahren des vorigen Jahrhundert gemacht - aber heute nicht mehr...

 

Wie das alles funktioniert und wie man das dann einstellen muss, um Paperless-ng immer schlauer zu machen beim Aufbau des Archiefs steht in der Betriebsanleitung / Doc!

Also ran - das lohnt sich wirklich.... wenn ich alter Knop das in den Kopf kriege sollte das doch machbar sein ?

 

Ich habe mir extra einen neuen Scanner dafür gekauft - selbst mit meinen Uralt-Computern funktioniert der super

Fujitsu IX1600

Tip: ein guter Scanner ist wichtig für die saubere Texterkennung...

 

Also los und nicht die Flinte ins Korn werfen, sondern Zeit dafür nehmen - wird belohnt!

  • Like 1
Link to comment

@ullibelgiehat das gut erklärt. Anstatt den Kuli zu benutzen kannst du dir es ein wenig leichter machen wenn du ein Stempel benutzt der automatische fortlaufend nummeriert.

 

https://www.amazon.de/s?k=Paginier-Stempel&__mk_de_DE=ÅMÅŽÕÑ&crid=353FY7JV8B5SC&sprefix=paginier-stempel+%2Caps%2C136&ref=nb_sb_noss

 

Ich hab einfach mal 20-30 Dokumente, Rechungen etc genommen teilweise mit dem Editor .txt Dateien erstellt in die Textdeien willkürlich was reingeschrieben und irgenwo das Wort Rechnung eingefügt, nur zu Testzwecken.

 

Wenn eines der Wörter (Rechnung Rechnungsdatum Lieferschein invoice) vom OCR erkannt wird , wird das Dokument in meinem Fall in den Ordner Rechnung gespeichert.

Das kannst du so einfach fortführen. So kannst du die Dokumente sortiert ablegen.

Wenn du nun die Rechung von deinem Backofen suchst den du vor 5 Jahren erworben hast, schreibst du wie @ullibelgie oben dir das erläutert hat, in die Suchmaske z.b Backofen oder Neff oder titangrau und schwupps hast du das Dokument.

Es braucht halt einwenig Einarbeitungszeit um das Programm zu "verstehen,fühlen" wie es arbeitet.

FireShot Capture 091 - Dokumenttyp zur Änderung auswählen - Paperless-ng - 192.168.178.44.png

Link to comment
5 hours ago, ullibelgie said:

Ich habe mir extra einen neuen Scanner dafür gekauft - selbst mit meinen Uralt-Computern funktioniert der super

Fujitsu IX1600

Tip: ein guter Scanner ist wichtig für die saubere Texterkennung...

 

Also los und nicht die Flinte ins Korn werfen, sondern Zeit dafür nehmen - wird belohnt!

Hast du mal einen Vergleich mit Fotos vom Handy probiert wie gut bzw. schlecht das funktioniert?

Link to comment

"Hast du mal einen Vergleich mit Fotos vom Handy probiert wie gut bzw. schlecht das funktioniert?"

 

Ja, denn ich habe z.B. auch versiegelte Urkunden und ähnliches zu digitalisieren, die nicht vom Scanner als loses Blatt eingezogen werden können.

Dann kommt es für einen Vergleich natürlich darauf an, welche technische Qualität das Handy hat, aber auch was z.B. die Belichtungsverhältnisse sind für die Handycamera.

 

Ich benutze dann Officelens mit dem Handy - von der Software prima.

 

In der Praxis sind die Ergebnisse mit meinem Durchschnitts-Samsung Handy aber immer schlechter - einfach weil der Scanner immer optimale Belichtungs- und Aufnahmebedingungen hat - auch durch die evtl perspektivische Verzerrung der mini-Linse des Handy (durch den starken Weitwinkel und kurze Aufnahme-Abstände)

 

Eine excellente externe Kamera im professionellen Leuchtkasten mit relativ grossem Objektivabstand würde wohl gleich gute Ergebnisse bringen wie der Papier scanner - aber das habe ich nicht zur Verfügung...

  • Thanks 1
Link to comment

@ullibelgie danke für die super Erklärung wie mit paperless der Hase läuft... einen Dokumentenscanner habe ich ScanSnap iX1500 hier will ich noch (wenn das geht) einstellen das die scannst in einen überwachten Ordner von paperless landen....

 

ok ich werde mich dann doch mal auf den weg machen und paperless einrichten...

Link to comment
On 1/22/2022 at 10:01 AM, ullibelgie said:

"Hast du mal einen Vergleich mit Fotos vom Handy probiert wie gut bzw. schlecht das funktioniert?"

 

Ja, denn ich habe z.B. auch versiegelte Urkunden und ähnliches zu digitalisieren, die nicht vom Scanner als loses Blatt eingezogen werden können.

Dann kommt es für einen Vergleich natürlich darauf an, welche technische Qualität das Handy hat, aber auch was z.B. die Belichtungsverhältnisse sind für die Handycamera.

 

Ich benutze dann Officelens mit dem Handy - von der Software prima.

 

In der Praxis sind die Ergebnisse mit meinem Durchschnitts-Samsung Handy aber immer schlechter - einfach weil der Scanner immer optimale Belichtungs- und Aufnahmebedingungen hat - auch durch die evtl perspektivische Verzerrung der mini-Linse des Handy (durch den starken Weitwinkel und kurze Aufnahme-Abstände)

 

Eine excellente externe Kamera im professionellen Leuchtkasten mit relativ grossem Objektivabstand würde wohl gleich gute Ergebnisse bringen wie der Papier scanner - aber das habe ich nicht zur Verfügung...

Ich hab mir jetzt auch Paperless eingerichtet aber noch zwei drei Fragen bezüglich Praxiserfahrung.

 

Gibt es eine Möglichkeit nachträglich einen Dokumententyp anzulegen und die bestehenden Ergebnisse nach zu erfassen? Verwendest du die Tags? Gibst du den Dokumenten noch einen Namen oder ziehst du die tatsächlich blind rein?

 

Besten Dank.

Link to comment

hab alles installiert... nun wollte ich euch mal fragen wie ihr das mit den dokumententypen und den tags macht.

 

ich bin eine ein man show als selbständiger

die dokumententypen sind ja irgendwie klar

Rechnungen/Versicherungen/Verträge...

 

Die Tags würde ich so machen

Handy/KFZ/Haus...

 

Doch wie würdet ihr die Abgrenzung zu meiner Selbständigkeit einbeziehen?

Alles was ich so rein bekomme gehört entweder ins private oder eben in die firma und bei der firma sollte man evtl. noch unterscheiden Jahr/Quartal/Monat

 

wie würdet ihr das umsetzen? kann man das mit den Tags erledigen?

Link to comment
16 minutes ago, Hoddl said:

Doch wie würdet ihr die Abgrenzung zu meiner Selbständigkeit einbeziehen?

Alles was ich so rein bekomme gehört entweder ins private oder eben in die firma und bei der firma sollte man evtl. noch unterscheiden Jahr/Quartal/Monat

 

wie würdet ihr das umsetzen? kann man das mit den Tags erledigen?

 

Mach doch einfach einen Tag Privat, wenn es sicher Privat ist.

Du musst die Tags verstehen als eine Art Uberschrift der Eigenschaft für alles was sich darunter befindet.

Wenn Du zwei Tags zu gleicher Zeit vergibst für ein Dokument gelten eben beide Eigenschaften...

 

Du musst mal überlegen:

z.B. ein wichtiger Lieferant wird Dir wahrscheinlich nur geschäftliche Vorgänge und Dokumente liefern.

Was immer auch im Scanner als diese "Firma X" erkannt wird, sollte also automatisch den Tag "geschäftlich" erhalten - das kannst Du als Automatismus in Paperless NG angeben. Vielleicht sind noch andere Eigenschaften die von Firma X immer dieselben sind - dann kannst Du auch das gleich als Tag zusätzlich eingeben....

 

Deine beste liebe Freundin "Lieschen Müller", ist aber ein privat Kontakt, die holde Dame wird Dir wohl (hoffentlich!) niemals geschäftliche Dokumente zuschicken. Auch Dein Zahnarzt schickt Dir zwar "Rechnung" - aber es ist ein privater Vorgang.

 

Wenn der Scanner also das Wort "Lieschen Müller" entdeckt, kannst Du automatisch einen Tag "Privat" setzen. Auch wenn der Firmenname Deines Zahnarzts erscheint soll Paperless-ng den Tag 'Privat' setzen. Andererseits ist das erkannte Wort "Rechnung" im Scanner nicht ausreichend. um nur auf Der Basis die Entscheidung für den Tag "geschäftlich" zu treffen, denn die Rechnung könnte ja auch privater Natur sein... (Zahnarzt)

 

Es ist wichtig die Tags möglichst spezifisch zu setzen - bei einer Suche und Eingabe der Tags wird dann die Schnittmenge gesucht...

 

Keine Sorge - Du kannst später noch Tags zufügen - allerdings ist es hilfreich schon am Anfang automatische Tags setzen von Paperless-ng durch entsprechende Regeln setzen zu lassen - siehe Beispiel oben... dann brauchst Du nicht alles per Hand eingeben....

 

Ich mache es mir zur Angewohnheit im Titel eine Kurzbeschreibung des Vorgangs einzugeben ein Betreff, wenn Du so willst. Das hilft später in der Suche der Trefferlisten, die bei einem Search von 10000 Dokumenten ausgegeben wird...die kann durchaus noch 100 Treffer ergeben - wenn aber im Titel der betreff/Umschreibung des Inhalts steht - ist das Dokument schnell gefunden - bei mir eine Seriennummer.

Nur wenn ich sicher das Originaldokument nötig habe, muss ich an die Papierboxen um das Originaldokument zu entnehmen - ansonsten reicht die Ansicht des digitalen Scans - wir wollen ja nix neu ausdrucken, sondern gerade das Gegenteil - Papier sparen!

 

Wenn Du eine Weile mit dem System gearbeitet hast, versuche mal nach bestimmten Vorgängen zu suchen - dann bekommst Du ein Gefühl, wie Du vielleicht noch spezifische Tags zusätzlich angeben kannst.

 

Viel Erfolg weiterhin...

Link to comment
On 1/23/2022 at 7:10 PM, Smolo said:

"Verwendest du die Tags? Gibst du den Dokumenten noch einen Namen oder ziehst du die tatsächlich blind rein?"

 

Ja natürlich verwende ich die Tags (siehe oben) - blind geht das nicht wirklich vernünftig - das System ist zwar lernwillig und lernbereit, aber wie auch wir Menschen nicht von Geburt allwissend.

Machine-learning (die Technologie, die sich hier verbirgt in der Programmierung) ist auch nur so effizient, wie die einzelnen logischen Bausteine, die man vorgibt.

 

Beispiel oben:

Die Maschine lernt so für die Zukunft, das der Zahnarzt eben privat ist und das die Firma X eben geschäftlich ist. Nur aus der Kombination von Rechnung und Zahnarzt weiss Paperless-ng, dass DIESE Rechnung eben privat ist, aber es gibt auch Rechnungen die eben geschäftlich sind (Firma X)

 

Es ist also besonders wichtig, dass man Paperless-ng so effizient wie möglich mit Regeln und Eingaben füttert und "trainiert"

 

Ich habe heute mit meinem Uraltcomputer (siehe unten) einmal einen Search auf mehrere tausend Dokumente losgelassen - die Sucheingabe war nur einen Teil eines Wortes im Dokument...   Also z.B wenn ich Zahnarzt suche habe ich nur Arzt eingegeben.....

Resultat: beim Search in Titel und Content (Standardsuchleiste): in einem Bruchteil einer Sekunde wurden mir genau die 2 (Zwei!) Dokumente ausgeworfen (von mehreren tausend!), die ich suchte....

Also Paperless-ng kann nach einiger Lernzeit unglaublich effizient und 'schlau' werden...

 

Aber am Anfang ist es leider ziemlich strohdumm - wir müssen es 'trainieren'...

Link to comment
2 hours ago, ullibelgie said:

 

Ja natürlich verwende ich die Tags (siehe oben) - blind geht das nicht wirklich vernünftig - das System ist zwar lernwillig und lernbereit, aber wie auch wir Menschen nicht von Geburt allwissend.

Machine-learning (die Technologie, die sich hier verbirgt in der Programmierung) ist auch nur so effizient, wie die einzelnen logischen Bausteine, die man vorgibt.

 

Aber am Anfang ist es leider ziemlich strohdumm - wir müssen es 'trainieren'...

Ich weiß schon was ML ist es ging ehr um die praktische Erfahrung / Umsetzung des ganzen ;-) Aus deinen Worten entnehme ich die Tags manuell gesetzt werden müssen. D.h. man muss trotzdem noch Hand anlegen. 

Hier interessiert mich aber wie das mit der nachträglich Erfassungen abläuft wenn ich bestehenden Dokumenten einen einen Dokumententyp / Tag hinzufügen möchte.

 

Szenario

Dokumententyp "Rechnung" soll nachträglich in "Arzt Rechnungen", "Energie Rechnungen" und "Sonstige Rechnungen" aufgetrennt werden?

Link to comment
26 minutes ago, alturismo said:

 

einfach bearbeiten ....

 

Hm darum ging es mir jetzt nicht sondern um die Frage kann ich eine Reindizierung anstoßen. Wenn ich 500 Dokumente eingecheckt habe und diese Auftrennung vornehmen möchte kann ich das automatisieren analog dem Import? Ich hätte ein paar tausend Dokumente zum Scannen das würde nach meinem aktuellen Kenntnisstand aber voraussetzen das ich bereits vor dem ersten Scan alle Dokumententypen / Tags etc. spezifiziert haben müsste?

Link to comment
16 minutes ago, Smolo said:

kann ich eine Reindizierung anstoßen.

 

On 1/21/2022 at 5:12 PM, alturismo said:

sorry, aber liest Du Dir auch die Docu durch ?

 

Beispiel aus der Documentation, paperless ist so gut dokumentiert ... 

 

image.thumb.png.a9c5cd17b444682f548a498eb4212dff.png

 

mach nur vorher ein Backup falls was schief geht ... und ... die Apps haben in der Regel eigene Hilfeseiten, Docs, Foren, ... hier sollte hauptsächlich Hilfe stattfinden im Zusammenhang mit Unraid, jedoch geht es als immer mehr um die Hilfe der App(s) an sich.

 

Nicht persönlich gemeint @Smolo, nur wenn ich hier immer offene Threads sehe, nachschaue ob was technisch nicht geht und dann sehe dass die Fragen dann komplett abdriften und am Ende es nur um das Nachschlagen der Hilfe der App geht ... dann wundert mich das einfach ... ;)

  • Like 1
  • Thanks 1
Link to comment
2 hours ago, alturismo said:

 

 

Beispiel aus der Documentation, paperless ist so gut dokumentiert ... 

 

image.thumb.png.a9c5cd17b444682f548a498eb4212dff.png

 

mach nur vorher ein Backup falls was schief geht ... und ... die Apps haben in der Regel eigene Hilfeseiten, Docs, Foren, ... hier sollte hauptsächlich Hilfe stattfinden im Zusammenhang mit Unraid, jedoch geht es als immer mehr um die Hilfe der App(s) an sich.

 

Nicht persönlich gemeint @Smolo, nur wenn ich hier immer offene Threads sehe, nachschaue ob was technisch nicht geht und dann sehe dass die Fragen dann komplett abdriften und am Ende es nur um das Nachschlagen der Hilfe der App geht ... dann wundert mich das einfach ... ;)

Ich könnte jetzt auch frech fragen ob du auch die Fragestellungen liest? ;-) Ich wollte wissen wie es um die Praxiserfahrung bestellt ist und nicht was die Doku an theoretischen technischen Mitteln bereit hält. Wenn du das überlesen hast kein Thema , da brauchst du aber dann auch nicht mit solchen Keulen kommen von wegen nur technische Unraid Themen ...das ist ein Forum ;-)

 

Trotzdem Danke für den Link auf die Doku.

Link to comment
5 hours ago, Smolo said:

Ich könnte jetzt auch frech fragen ob du auch die Fragestellungen liest? ;-)

 

Schönen guten Morgen ;) und ja, nur anscheinend zu viele ;)

 

zu der Erfahrung, geht wunderbar ... renamed, verschiebt sauber in die "neue" Struktur., nur bitte nicht von Hand renamen, verschieben.

 

Rest lasse ich jetzt einfach unkommentiert.

  • Thanks 1
Link to comment

Zu dem nachträglichen Bearbeiten der Tags für bereits im System befindliche Dokumente:

 

Natürlich kann man Dokumente auch nachträglich weiter MANUELL klassifizieren auch neue Tags definieren usw... (s.o.)

 

Die Frage ist aber, ob eben auch für alte Dokumente eine Neuklassifizierung automatisch erzeugt werden könnte, unter zu Hilfename des neuronalen Netzwerks, was sich hinter dem Algorithmus 'Auto' verbirgt. Ich könnte mir vorstellen, das in diese Richtung die Frage von Smolo geht ?!

 

Man müsste mal einen Test machen mit doch mindestens 500 Dokumenten im System:

Beispiel - man hat den Tag 'Zahnarzt' bereits vergeben im system

Ausserdem den Tag 'Rechnung'

Nun geht man in die Konfiguration unter Tags und definiert einen neuen Tag 'Zahnarztrechnung' mit dem Algorithmus 'Auto' ohne Dokumente manuell mit dem Tag zu versehen.

 

Wahrscheinlich wird das System nichts veränderen auch nicht nachdem der Docker ein paar Stunden läuft, aber das müsste man ausprobieren...

Ich habe nämlich irgendwo gelesen, daß der Algorithmus ständig aktiv ist und regelmässig irgendwas verfeint ?! Weiss aber nicht mehr wo ich das gelesen habe ...

 

Interessant ist, wenn man eine bereits verarbeitetes Dokument nochmals durch den 'consume' ordner ins system einfügt (ein Doppel) - es könnte sein, dass das Doppel/Neueingabe jetzt anders als im 'ersten Durchlauf' zusätzlich den Tag Zahnarztrechnung bekommen hat... eben mit dem Auto Ordner. Wenn das alte Dokument den neuen Tag nicht hat, wissen wir, dass der Algorithmus wirklich NUR für Neueingaben läuft. Das ist für mich aus der Dokumentation nicht ganz sonnenklar...

 

Hier geht offenbar 'Probieren über Studieren' - mit dem Lesen der Doc ist es da (bei mir jedenfalls) nicht getan - aber ich muss hier auch noch einiges Testen, bevor ich mehr dazu sagen kann... die Eingabe des Archivs mach einfach noch zu viel Arbeit (alte Handschriften müssen noch erst eine Abschrift bekommen für die OCR Erkennung und weiteres mehr...)

 

Also evtl. bitte mal selbst probieren.

  • Like 1
Link to comment
  • 1 month later...
On 3/11/2022 at 6:30 PM, Manyak said:

So wie es scheint wird Paperless-ng von Jonas Winkler nicht mehr weiterentwickelt. Das haben sich andere Leute jetzt zur Aufgabe gemacht.

 

Ich habe bereits ein paperless-ngx Unraid Template vorbereitet, welches wartet akzeptiert zu werden. Die beiden Templates paperless-ng und paperless-ngx werden dann fuer eine Weile koexistieren. Damit kann jeder entscheiden, ob und wann er migrieren moechte. Bis klar ist wie sich paperless-ngx mit der neuen Dev-Gemeinde entwickelt, ist meine Empfehlung aber weiterhin auf paperless-ng fuer ein produktives System zu setzen.

 

Jonas hat sich nicht zum Status von paperless-ng geaussert und ist seit Monaten abwesend. Es ist moeglich, dass er irgendwann zurueckkehrt und die Entwicklung weiter geht.

 

Update: Template paperless-ngx nun ist verfuegbar

 

Edited by T0a
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.