juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

OCR von PDF Dateien [Dokumentenverwaltung]

Fri Dec 13, 2013 9:55 pm

Guten Abend,

Ich bräuchte ein wenig Hilfe für ein kleines Projekt.


Es handelt sich dabei um den "Aufbau" einer kleinen Dokumentenverwaltung für mich.

Workflow:

Teil 1: Brief -> Scanner -> *.pdf ( in einem Ordner, NAS gemountet auf dem Rasp)

Das bekomme ich hin ( Linux Anfänger ).

Die PDF Dateien können aber nicht durchsucht werden. Und jetzt kommt mein Problem.

Kennt jemand eine Möglichkeit ( Tool ) mit dem ich die PDF Dateien verschlagworten kann? Bzw. Diese so hinbekomme das ich nach "Lohnsteuer" Suche und alle Dokumente finde in denen das Wort vorkommt?

- ps: vielen Dank für den Verweis auf das dt. Forum. Habe das überhaupt nicht gesehen. :mrgreen: :mrgreen:

User avatar
Hiswif
Posts: 664
Joined: Sat Oct 13, 2012 11:54 am
Contact: Website

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 7:13 am

Heho,

Wenn ich dich recht verstanden habe sollte dies hier genau das sein was du suchst.

http://wiki.ubuntuusers.de/Paperwork


Mfg

His
http://technikegge.blogspot.de

ghans
Posts: 7871
Joined: Mon Dec 12, 2011 8:30 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 9:48 am

AFAIK kann Paperwork nicht PDF- Dateien einlesen. Du
musst die Seiten als Bilder einscannen.

Bei Paperwork muss anscheinend auch eine ganze Menge
kompiliert werden , obwohl es in Python verfasst wurde .

Daher schlage ich pdfocr vor.
https://github.com/gkovacs/pdfocr

Dieses Programm ist wie Paperwork nicht in
den Repos für Raspbian , kann aber (nach Erfüllung
der Abhängigkeiten) direkt heruntergeladen und
verwendet werden (im Gegensatz zu Paperwork).


Die Abhängigkeiten von pdfocr sind

Code: Select all

pdftk poppler-utils exactimage tesseract-ocr tesseract-ocr-deu ruby
ghans
• Don't like the board ? Missing features ? Change to the prosilver theme ! You can find it in your settings.
• Don't like to search the forum BEFORE posting 'cos it's useless ? Try googling : yoursearchtermshere site:raspberrypi.org

ghans
Posts: 7871
Joined: Mon Dec 12, 2011 8:30 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 10:42 am

Habe noch dies gefunden :

https://github.com/Pankrat/pdf-ocr-overlay

Die selben Abhängigkeiten , nur "ruby" durch "ghostscript"
erstzen.

ghans
• Don't like the board ? Missing features ? Change to the prosilver theme ! You can find it in your settings.
• Don't like to search the forum BEFORE posting 'cos it's useless ? Try googling : yoursearchtermshere site:raspberrypi.org

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 10:55 am

Ich hatte ja versprochen, mich hier zu melden und zu antworten.

Leider ist OCR noch eine der Schwachstellen von Linux und einer der ganz wenigen Gründe, warum ich nicht auf Windoof-Rechner verzichten kann. So etwas wie Abby Finereader gibt es unter Linux einfach noch nicht. Lies mal folgenden Artikel dazu:

http://www.linux-community.de/Internal/ ... -Tesseract

Ich würde aber dem Hinweis von Ghans mal nachgehen; das scheint momentan die einzige Linux Software zu sein, mit der man PDFs generieren bzw. umbauen kann, bei denen (mehr oder weniger gut per OCR konvertierter) Text der Bildseite hinterlegt werden kann. Dann sieht man die fehlerfreie (gescannte) Seite und kann das Dokument trotzdem durchsuchen, Text herauskopieren usw. Als engine würde ich - trotz aller Schwächen - Tesseract mit deutscher Sprachdatei verwenden. Und man könnte mit einem kleinen Script oder Python-Programm den ganzen Prozess (Ordnerstruktur) auch noch automatisieren.

Mit der Textindizierung sieht es genau umgekehrt aus. Dafür gibt es unter Linux genial gute Tools. Du solltest dir Recoll installieren (und einige zusätzliche tools wie pdf2txt für weitere Formate). Dann kannst du von Recoll ganze Ordnersysteme indizieren lassen und dann blitzschnell alle indizierten Dokumente durchsuchen. Recoll basiert auf der Xapian-Engine und die ist sagenhaft gut. Ich benutze sie auch auf Internetservern für sehr komplexe Suchdatenbanken.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 12:58 pm

Hallo, vielen dank für die Antworten.

Ich habe gerade in der Software des Scanners nachgeschaut.

Ich kann auch direkt in folgende Formate Scannen:


JPEG/Exif
TIFF
PNG

- Das würde doch einige Probleme beheben sehe ich das richtig ?

Dann müsste Paperwork doch direkt gehen ( abgesehen vom Compilieren etc ).



Update: JPEG/TIFF würde gehen.

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 1:20 pm

wenn du mit den scannen noch gar nicht begonnen hast, kannst du auch gscan2pdf verwenden. Da geht dann alles in einem Aufwasch (außer der Textindizierung). Vermutlich mußt du dir aber die aktuellest Version holen (nicht die von Raspbian).

Und als Suchinstrument (incl. Indizierung) ist recoll unschlagbar.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 1:28 pm

:D - ich bemühe mich stets folgende Schritt einzuhalten:

Wieso/weshalb/Warum tue ich etwas, und dann Was:

Und beim dem Was stehe ich gerade.

Ich habe mit dem Scannen nicht begonnen.

Zu erst möchte ich sichergehen das ich verstanden habe was ich da tue. Es soll ja für die "Ewigkeit" sein.

Deshalb erkundige ich mich erst einmal bei euch :mrgreen: (und google).


gscan2pdf ? - okay, ich habe gerade die VM LINUX Mint gestartet. Ich schaue mir das einmal an.

Danke für die Hilfe.


Update - gscan2pdf ist doch zum einscannen da oder? ( evtl. habe ich es falsch verstanden ).


Ich kann die Dokumente mit einem Knopfdruck als Tiff (etc s.Oben) auf mein NAS speichern. Das geht.

Aber das OCR/indexieren und wiederfinden verstehe ich noch nicht.

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 1:41 pm

gscan2pdf kann auch gleich die Texterkennung starten und PDFs mit hinterlegtem Text (unsichtbar hinter dem Bild) erzeugen. Da ist die OCR-Qualität dann nicht ganz so wichtig.

recoll kann dann ganze Ordnersysteme indizieren und eine Suchdatenbank erstellen und dient ebenso als Such-Interface mit Vorschau der gefundenen Textstellen und man kann damit dann auch das gewünschte Dokument öffnen.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 1:51 pm

gscan2pdf - braucht also das PDF Format?


Also:


Dokument scannen -> *.PDF auf dem NAS -> gscan2pdf macht die Texterkennung -> *.PDF -> Recoll als Suchmaske


Recoll habe ich gerade getestet: Sehr sehr gut das Programm!

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sat Dec 14, 2013 2:00 pm

gscan scannt auch und macht aus den Scans direkt durchsuchbare PDFs.

Wenn du mit anderer Software scannst (PDFs), solltest du eines der Tools nehmen, auf die Ghans verwiesen hat, um die Scans dann durchsuchbar zu machen.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Sun Dec 15, 2013 4:20 pm

Guten Abend,

Ich habe mich nun längere Zeit mit euren Vorschlägen beschäftigt. Nun habe ich aber noch ein Paar wenige konkrete Fragen. Und ich hoffe das ihr mir helfen könnt.

Das ist der Stand der Dinge ( Workflow ) in einer VM mit Linux Mint 13

Dokument -> Scanner -> .tiff ( NAS Laufwerk ) -> gscann2pdf -> OCR -> .PDF ( searchable) -> Recoll zum suchen.

Das funktioniert super.

Nun meine kleinen Probleme:

- gscann2pdf : wie bekomme ich das hin, das jede .Tiff Datei automatisch geöffnet wird - bearbeitet wird - und unter einen separaten Name Gespeichert wird?

Ich lese immer wieder etwas von Ghostscript. Ich kenne mich damit überhaupt nicht aus. Ich habe minimalen Kenntnisse in Autohotkey. Aber das bringt mich kein Stück weiter.


Edit: ich rede von Einseitigen Dokumenten , die auch Einseitig wieder raus kommen.

ghans
Posts: 7871
Joined: Mon Dec 12, 2011 8:30 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 9:39 am

Ich glaube die GUI zu automatisieren ist der falsche Weg. Selbst wenn du Erfahrung mit AutoIt hast , musst
du für Linux möglicherweise nach IronAHK / AutoKey umlernen.

Daher schalge ich vor , BASH Skripte zu verwenden - diese sind wesentlich universeller.
Leider lässt sich gscan2dpf nicht besonders gut über Kommandozeilenoptionen steuern , da eignet sich
nur pdfocr oder mein zweiter Vorschlag.

ghans

PS.: Hat der Pi in diesem Setup überhaupt eine tragende Rolle ?
• Don't like the board ? Missing features ? Change to the prosilver theme ! You can find it in your settings.
• Don't like to search the forum BEFORE posting 'cos it's useless ? Try googling : yoursearchtermshere site:raspberrypi.org

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 10:08 am

Der PI macht das OCR. Ich habe 200 Seiten gescannt ( 5 GB ) , und dies ist nur ein Bruchteil. Der PI kann dann ganz gemächlich OCR machen und braucht dabei wenig Strom.

Ich habe heute Morgen gelesen das es OpenKM gibt. Das soll wohl alles machen inklusive Dokumentenverwaltung. Ich schaue mir das mal an und Berichte. Evtl läuft es auf dem Rasp.

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 11:10 am

Kannst du vergessen. Dafür ist der RPi wirklich nicht geeignet. Schau mal unter Hardwarevoraussetzungen nach.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 11:17 am

:shock:

Okay - das hätte ich zu erst machen sollen.

Also doch etwas selbst gebautes.

Bash ?

Ich hätte nicht gedacht, das es 2013 noch so schwer ist OCR von Daten zu machen .-/

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 11:34 am

juxreal wrote: Bash ?

Ich hätte nicht gedacht, das es 2013 noch so schwer ist OCR von Daten zu machen .-/
Bash ist wirklich ein einziger unlogischer und kryptischer Mist - aber leider der schnellste Weg, irgendwelche Batchprozesse zu organisieren. Ich mach aber sowas trotzdem lieber in Python.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 12:13 pm

Edit:

Also, wenn ich Dich richtig verstehe mache ich das am besten in Python.
Ich wollte mir Python schon länger anschauen, jetzt habe ich ja einen Grund.

Aber eigentlich ist das nicht wirklich schwer.


Das Script nimmt alle Daten aus Folder A(Input) - macht ein commandline mit dem ORC Programm und den Parametern ( input/Output ) -> Fertiges PDF geht in Folder B und Datei aus Folder A wird nach Folder C verschoben. Somit leer sich Folder A. Wenn keine Daten mehr in Folder A sind passiert auch nichts mehr.

In Autohotkey würde ich das wohl noch hinbekommen. Phython hingegen nicht.

ABER:

Nach etwas suchen, müsste das bisschen Code doch schon ein Anfang sein.

Code: Select all


import os
import sys

#Pfad zu Folder A
path = '.'

#Für jede Datei in %PFAD%
for file in os.listdir(path):

    current = os.path.join(path, file)

    if os.path.isfile(current):

#Hier müsste doch das command hin? Für z.B. teresca oder so
        data = open(current, "rb")
#Print kommt weg, und die alte Datei muss nach Folder C bewegt werden oder ?
        print len(data.read())



Command: tesseract beispiel.tiff beispiel -l deu

Achtung: Ich habe überhaupt keine Ahnung vom Programmieren.... Naturwissenschaftler.. :mrgreen:

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 2:21 pm

:D

Ich bin wohl nicht der einzige mit diesem Wunsch. Und siehe da es gibt da etwas.

http://www.watchocr.com/index.html

:| Leider kommt nun meine Unkenntnis zu Tage.

Kann man das auf dem Raspberry Packen?

Das währe zu ideal.

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 3:12 pm

Das gibt es leider nicht als Quellcode, also nicht für den RPI.

Zu Python: Für Kommandozeilen gibt es viele Lösungen, die einfachste:

dummy = os.system('komandozeile')

Das führt die Kommandozeile aus und macht weiter, wenn das aufgerufene Programm fertig ist.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

naicheben
Posts: 344
Joined: Sat Jan 28, 2012 12:28 pm
Contact: Website

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 7:46 pm

In der aktuellen C't wurde eine Software kurz vorgestellt, die Texte in PDFs erkennt und direkt in einem unsichtbaren Layer darüber legt. Keine Ahnung, ob man die auf dem Pi zum Laufen bekommt:
ocrmypdf

https://github.com/fritz-hh/OCRmyPDF

gkreidl
Posts: 6054
Joined: Thu Jan 26, 2012 1:07 pm
Location: Germany

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 8:32 pm

Ist ein reines Shell script -- sollte man ausprobieren.
Minimal Kiosk Browser (kweb)
Slim, fast webkit browser with support for audio+video+playlists+youtube+pdf+download
Optional fullscreen kiosk mode and command interface for embedded applications
Includes omxplayerGUI, an X front end for omxplayer

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Tue Dec 17, 2013 9:26 pm

:D das hört sich zu gut an um wahr zu sein.

Brauche nur noch einen weiteren Raspberry :D - die anderen haben zu tuen :geek: ( oja - 3 Watt können soviel machen )

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 6:45 am

Guten Morgen liebe Forengemeinde,

ich habe mein Projekt nun soweit im Griff das ich nur noch ein wenig Schützenhilfe brauche. :roll:

Es geht um das leidige Thema - Alle Dateien aus einem Ordner ab arbeiten. :mrgreen: - und ich habe Gestern viel gelesen und gelernt - ein klassiker der Forengeschichte. Leider klappt das alles nicht so wie ich mir das wünsche.

Vielleicht hat jemand von euc eine helfende Hand über:

Also: Alle Daten gehen in einen Ordner. Es können .tiff Dateien sein, oder .pdf Datein.

Fall 1:

Ordnername: Scanner

Ist es eine .tiff Datei muss folgendes gemacht werden.

Code: Select all

tiff2pdf -o [b]AUSGABEDATEI.pdf[/b] [i]INPUTDATEI[/i]
danach

Code: Select all

OCRmyPDF [i]inputfile[/i] [b]Outputfile[/b]
danach wird die ursprungs .Tiff verschoben nach ordner Original und die nächste genommen.

Fall 2

Ordner: Scanner
Datei ist direkt eine .pdf

Code: Select all

OCRmyPDF [i]inputfile[/i] [b]Outputfile[/b]
danach wird die ursprungs .Tpdf verschoben nach ordner Original und die nächste genommen

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 6:52 am

Sorry für doppel Post - der Iexplorer springt immer hin und her, ich kann den alten Beitrag nicht weiter schreiben.

Hier mein Lösungsansatz für Oben

Code: Select all

find /home/pi/dokumente/Scanner/* |xargs /home/pi/dokumente/OCRmyPDF-1.0stable/OCRmyPDF.sh {}  /home/pi/dokumente/bearbeitet/
Das läuft immer in ein permission denied.

ich kenne mich nur leider überhaupt nicht damit aus. :|

find und exec habe ich auch ausprobiert. Aber das klappt auch nicht.

wenn ich die Befehle von Hand eingebe funktioniert alls wie gewünscht ( also die codes von oben ).

Return to “Deutsch”