frodo
Posts: 63
Joined: Wed Dec 18, 2013 2:36 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 10:52 am

juxreal wrote: Es geht um das leidige Thema - Alle Dateien aus einem Ordner ab arbeiten.

Code: Select all

for i in `ls`; do echo "$i -> $i.out"; done
juxreal wrote:

Code: Select all

tiff2pdf -o [b]AUSGABEDATEI.pdf[/b] [i]INPUTDATEI[/i]
Unter der Annahme, daß bei dem ganzen OCR der Arbeitsspeicher für die Liste der Dateien vernachlässigbar ist:

für jedes element aus
einer Verzeichnisliste
mach eine Kopie mit der Endung .out

Code: Select all

for i in `ls`; do cp $i $.out; done
Nur Elemente mit Endung .tiff als Eingabe, nach datei.pdf:

Code: Select all

for i in `ls *.tiff`; do cp $i $.pdf; done
Aber das Ergebnis is dann beispiel.tiff.pdf - Blöd. Man muß die Endung austauschen, statt sie nur zu ergänzen.
Also brauchen wir einen Filter, der uns die Verzeichnisliste zurechtschnippelt,
indem er genau am Pünktchen für die Endung die Schere ansetzt. Beim Kopieren müssen wir aufpassen, denn wir arbeiten auf einer zerschnippelten Liste. Die echte Liste im Dateisystem enthält ja noch die Endungen:
(Siehe 'man cut' für Details!)

Code: Select all

 for i in `ls *.tiff | cut -d. -f1 `; do cp $i.tiff $i.pdf;done
Was ist, wenn die Dateien aber gar keine eindeutigen Endungen haben, und wir das Verzeichnis auch schon mit *.pdf-Dateien zugeknallt haben? Die will man ja nicht nochmal durch die Bearbeitung schicken, was bei Deinem tiff2pdf ja auch nur Rechenzeit fressen und Fehlermeldungen produzieren würde. Also schalten wir, ehe wir schnippeln, noch einen Filter, der nur durchläßt, was nicht auf '.pdf' endet. (Siehe 'man grep'!) Außerdem müssen wir beim Kopieren beachten, daß unsere zerschnippelten Verzeichniseinträge in diesem Beispiel nicht mehr auf "datei.*" sondern auf "datei" verweisen. Falls man das Abschneiden am ersten Punkt nicht mehr braucht, kann man den Filter mit cut entfernen. Ich hab ihn noch drin, weil mein Testverzeichnis von den vorherigen Kopierdurchläufen ganz schön vollgemüllt ist.

Code: Select all

 for i in `ls | grep -v ".pdf$" | cut -d. -f1 `;    do cp $i $i.pdf;    done
Jetzt mußt Du noch cp gegen Dein Programm zum Wandeln von tiff nach pdf austauschen. Siehe unten.

Falls Du einen Ratschlag zwischendurch verzeihst:
Es wird alles sehr viel einfacher, wenn Du die Verzeichnisse der Arbeitsresultate, Dokumente, usw. nicht nur im Kopf verwurschtelst, sondern das Dateisystem dafür benutzt. Dafür ist es da. Also genau wie bei jedem uncomputerisierten Bürokratievorgang ein Verzeichnis der eingehenden Dokumente, eines der abgearbeiteten Dokumente, eines der Originale für die Ablage, usw..
File heißt Akte/Hefter/Ordner, file directory heißt Aktenverzeichnis. Das UNIX-Dateisystem und seine Standardwerkzeugkiste mit shell, coreutils, ar, tar, m4, awk und so weiter orientieren sich in ihrem Ursprung an der Arbeit von Bürokräften mit elektrisch verkabelten Schreibmaschinen namens Teletype. :) Es ist ein saubequemes System, wenn man direkt die Arbeitsvorgänge in einem klassischen Bürokomplex mit Schreibmaschinen, Verwaltungsvorgängen und Hauspost nachstellt. Es gibt sogar 'ne Rohrpost namens 'pipes'.
Es wird aber schnell sehr kompliziert, wenn man es wie einen Basic-Interpreter oder wie eine Smalltalk-Maschine verwenden will. Nachdem dieser Groschen bei mir (viel zu spät) gefallen war, wurde die Shell auf einmal mein engster Freund. ;)
juxreal wrote: danach

Code: Select all

OCRmyPDF [i]inputfile[/i] [b]Outputfile[/b]
danach wird die ursprungs .Tiff verschoben nach ordner Original und die nächste genommen.
  • Verzeichnis auflisten, Zeilen zurechtstutzen
  • OCR durchführen, dabei neuen Dateinamen für Datenausgabe bauen und gleich auch die Ergebnisse im Unterverzeichnis 'OCR-Resultate' speichern, um das Arbeitsverzeichnis nicht zu vermüllen und den Überblick behalten zu können.
  • Nur wenn OCR-Schritt erfolgreich (Verknüpfung der Schritte mit &&), Eingabedatei nach Verzeichnis 'Original' verschieben.

Code: Select all

for i in `ls *.tiff | cut -d. -f1 `;    
    do OCRmyPDF $i.tiff OCR-Resultate/$i-nach-ocr.pdf && 
    mv $i.tiff Original/$i.tiff;    
done
juxreal wrote: Datei ist direkt eine .pdf

Code: Select all

OCRmyPDF [i]inputfile[/i] [b]Outputfile[/b]
danach wird die ursprungs .Tpdf verschoben nach ordner Original und die nächste genommen
  • Verzeichnis auflisten, Zeilen zurechtstutzen
  • OCR durchführen, dabei neuen Dateinamen für Ausgabedatei bauen und gleich auch die Ergebnisse im Unterverzeichnis 'OCR-Resultate' speichern, um das Arbeitsverzeichnis nicht zu vermüllen und den Überblick behalten zu können.
  • Nur wenn OCR-Schritt erfolgreich (Verknüpfung der Schritte mit &&), Eingabedatei nach Verzeichnis 'Original' verschieben.

Code: Select all

for i in `ls *.pdf | cut -d. -f1 `;    
    do OCRmyPDF $i.pdf OCR-Resultate/$i-nach-ocr.pdf && 
    mv $i.pdf Original/$i.pdf;    
done
Ich hoffe, das klappt so.

Noch ein Ratschlag: Wenn man wirklich mal komplexe Programmieraufgaben hat, sollte man nicht die shell benutzen. Das wird dann einfach unleserlich.
Die Shell ist wirklich für interaktives Arbeiten gedacht. Man hat irgendeine Liste mit Textzeilen, in denen wiederum andere Listen und Texte erwähnt werden, und will das abarbeiten, ohne in Wiederholungen zu ersticken oder gleich ein Programm schreiben zu müssen. Wenn der Druck zur Automatisierung größer wird und die Komplexität zunimmt, gibt es phantastische Werkzeuge wie make, m4, awk, tcl, perl, C entsprechend ansteigender Anforderungen.

Von Python würde ich in solchen Fällen fast immer abraten. Python wurde entwickelt, um graphische Oberflächen für ein anderes Betriebssystemkonzept (Amoeba) zu schreiben und hat entsprechende Hardwareanforderungen. Es ist im Grunde eine Mischung aus Smalltalk, Scheme und Perl und wirklich nett, um auf graphisch leistungsstarken Rechnern mit möglichst geringem Entwicklungs- und Lernaufwand bunte Fenster zu malen. Das ist aber ein ganz anderes Einsatzgebiet.

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 11:38 am

:shock: :o

Viel Dank für deine Ausführliche Beschreibung.
Es wird alles sehr viel einfacher, wenn Du die Verzeichnisse der Arbeitsresultate, Dokumente, usw. nicht nur im Kopf verwurschtelst, sondern das Dateisystem dafür benutzt
:arrow: Ich befürchte das ich mich missverständlich ausgedrückt habe.


Dokument wird gescannt -> in den Ornder /Scanner/ kommen *.tiff ODER *.pdf rein.

Beide Fälle sind möglich. Die PDF Datei die nun dort vom Scanner kommt, hat noch kein OCR gesehen.

Okay- Also im Ordner /Scanner/ liegen nun Daten. -> Nun muss geschaut werden ob es eine Tiff oder ein pdf ist.

TIFF: Wird zu erst nach .pdf Convertiert und dann OCR gemacht.
PDF: Es wird direkt ein OCR gemacht.

:) Ah jetzt wird mir ein Denkfehler klar.

Achtung - NEUE Ordnernamen für mehr eindeutigkeit:

Scanner = Input Ordner des Scanners ( Es kommen *tiff oder *pdf an)

OCR = hier müssten alle vorbereiteten Daten liegen die durch OCRmyPDF müssen ( also auch die umgewandelten Tiff ).

PDF-bearbeitet = Hier kommen alle fertigen PDF Dateien hin ( Nach OCR ). Hiermit baue ich meine Datenbank (Recoll z.B.)

Originale = Hier kommen die Tiff und PDF Daten rein, die als Ausgang für die weiterverabreitung dienten ( unverändert quasi vom Scanner als Backup).

Das ist jetzt soweit richtig verstanden oder?

Was ich nicht verstehe - Du tauscht nur die Endung aus? Von .tiff zu .pdf ? Geht das?

frodo
Posts: 63
Joined: Wed Dec 18, 2013 2:36 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 12:49 pm

juxreal wrote: Dokument wird gescannt -> in den Ornder /Scanner/ kommen *.tiff ODER *.pdf rein.

Beide Fälle sind möglich. Die PDF Datei die nun dort vom Scanner kommt, hat noch kein OCR gesehen.

Okay- Also im Ordner /Scanner/ liegen nun Daten. -> Nun muss geschaut werden ob es eine Tiff oder ein pdf ist.
Du könntest also in einem ersten Schritt die tiffs von den pdfs trennen.

Code: Select all

ls Scanner/*.tiff 
ls Scanner/*.pdf 
juxreal wrote: TIFF: Wird zu erst nach .pdf Convertiert und dann OCR gemacht.
PDF: Es wird direkt ein OCR gemacht.
Da man die Tiffs jetzt schön isoliert aufgelistet hat, muß man in diesem Schritt nur diese Liste der Tiffs durcharbeiten:

Code: Select all

# feed tiff into ocr step:

for i in `ls Scanner/*.tiff | cut -d. -f1`; 
    do tiff2pdf $i.tiff OCR/$i.pdf;
done

# feed pdf into ocr step:

cp Scanner/*.pdf OCR/

# ocr all incoming pdf, store results in PDF-bearbeitet and
#backup those data files BEFORE the tiff2pdf step.

for i in `ls OCR/*.pdf | cut -d. -f1 `;   
    do OCRmyPDF $i.pdf PDF-bearbeitet/$i-bearbeitet.pdf &&
    mv Scanner/$i.* Original/;   
done
juxreal wrote: Was ich nicht verstehe - Du tauscht nur die Endung aus? Von .tiff zu .pdf ? Geht das?
Du mußt natürlich den kopierbefehl cp durch Dein Programm zur Wandlung von tiff nach pdf ersetzen. Ich wollte mit dem cp-beispiel nur den Mechanismus zum Bearbeiten der Dateilisten zeigen:

Code: Select all

$ mkdir TMP
$ cd TMP
$ touch a.tiff b.pdf
$ ls
a.tiff b.pdf
$ for i in `ls | cut -d. -f1`; do echo "gestutzt: $i"; done
gestutzt: a
gestutzt: b
$ for i in `ls | cut -d. -f1`; do echo "ergänzt: $i-neue-endung.blah"; done
ergänzt: a-neue-endung.blah
ergänzt: b-neue-endung.blah
$ 
Jetzt alle Klarheiten beseitigt? Tut mir ganz gut, endlich mal wieder Dateien rumzuschubsen. :mrgreen:

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 2:51 pm

;) - also , wenn ich das richtig verstehe was Du geschrieben hast. Stimmt alles.


So sollte es ablaufen... warum bin ich nicht vorher da drauf gekommen das zu posten. Sorry.
Raspberry OCR.jpeg
Raspberry OCR.jpeg (60.25 KiB) Viewed 2915 times

Aber eine ganz dumme Frage habe ich noch. :mrgreen:

Jetzt habe ich dein Code, kommt das in eine .sh ? mit Chmod +x ? :roll:

Und welche Programmiersprache empfehlst Du mir. Für den Raspberry, zum Automatisieren von Abläufen
Attachments
Muster-OCR.JPG
Muster-OCR.JPG (45.13 KiB) Viewed 2918 times

frodo
Posts: 63
Joined: Wed Dec 18, 2013 2:36 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 4:05 pm

juxreal wrote:;) - also , wenn ich das richtig verstehe was Du geschrieben hast. Stimmt alles.


So sollte es ablaufen... warum bin ich nicht vorher da drauf gekommen das zu posten. Sorry.
Raspberry OCR.jpeg
Ahja, ich hab die Argumente bei tiff2pdf nicht exakt. Mußt Du halt korrigieren. ;)
Aber ansonsten ist das genau wie in meinem Vorschlag.
juxreal wrote: Jetzt habe ich dein Code, kommt das in eine .sh ? mit Chmod +x ? :roll:
Die Endung ist eigentlich egal. Nimm einen Dateinamen, der für Dich aussagekräftig ist.
Die erste Zeile der Datei muß ein "shebang" AKA "hashbang" sein:

Code: Select all

#!/bin/sh
Damit weiß das System, welcher Interpreter die nachkommenden Befehle ausführen soll.
Außerdem muß natürlich für den zuständigen Benutzer das Recht zum Ausführen der Datei gesetzt sein (chmod).
juxreal wrote: Und welche Programmiersprache empfehlst Du mir. Für den Raspberry, zum Automatisieren von Abläufen
Erstmal ist es praktisch, das, was man sowieso macht, hin und wieder in Dateien zu speichern -> GNU Bash.

Ansonsten kommt es wirklich darauf an, was Du machen willst, was Dir liegt oder welche Arbeitsweise Dich persönlich fasziniert.

Wenn es komplizierter wird, ist Perl seit sehr langer Zeit ein richtiges Schweitzer Taschenmesser.
Es wurde speziell für die Fälle entwickelt, wo man mit der Bash langsam Schmerzen bekommt und nicht weiß, was man noch alles einbauen muß. Das Geilste daran sind die regulären Ausdrücke, die auch Python geklaut hat. Ich hab im Beruf monatelang fast jede "Programmier"-Aufgabe erschlagen, indem ich bloß kurze Schleifen mit ein paar regulären Ausdrücken gebastelt hab. Darunter war ein Client für ein schwergewichtiges SOAP/HTTP-Servermonster, daß die andere Vertragsseite nie fertig gekriegt hat. Mein Code hat rotzfrech bloß das ganze XML weggeschmissen und die Rohdaten benutzt. War während der Mittagspause fertig, abends durchgetestet. (Den Vormittag hab ich damit verbracht, alle XML- und Java-Befürworter in den tiefsten Kreis der Hölle zu wünschen.) Schwierig war nur, die Leute abzuwimmeln, die dauernd wissen wollten, mit welchem Java-Factory-Middleware-GroßkoXXX-Produkt ich das denn so gelöst hätte... :twisted:

Willst Du nur verschiedene Bash-Scripte (oder andere Programme) koordiniert ausführen lassen, ist GNU Make der Klassiker. Die Syntax ist fast idiotensicher, so lange man nicht großartig zaubern will.

GNU m4 ist eine schnelle und simple Macrosprache mit nur einem Minimum an Befehlen. Die Grundidee ist Suchen/Ersetzen. Dazu ein bißchen Kontrollstruktur, Aufrufen von Programmen, Einbinden externer Dateien. Achja: Und alles ist Text. Auch Dateinamen und selbstverständlich das Makro selbst. ;) Manche Leute lassen sich damit ziemlich komplexe Websites erstellen. Soll süchtig machen und paßt gut mit der Bash zusammen. Ich spiele selber gerade ein bißchen damit rum, hab aber noch nichtd, was ich mal damit machen will. Auf jeden Fall ist es so schlank und minimal, daß man an einem Nachmittag alles Wichtige lernt und so ein kleiner Pi nicht überlastet wird.

GNU AWK hab ich selber noch nicht ausprobiert. Es war mal die Steilvorlage für Perl. Stell Dir vor, Du hast ein schönes kleines Tool, um Textzeilen zu bearbeiten (nennt sich sed übrigens). Jetzt willst Du noch einen eingebauten Taschenrechner und Kontrollstrukturen, um große Mengen von Dateien und in diesen nicht nur zeilenweise auswerten zu können -> awk. Eines der ältesten und verbreitetsten Werkzeuge überhaupt auf UNIX. Wurde auch schon für Webentwicklung benutzt, aber ich selber greife gleich zu perl.

TCL ist ein Außenseiter. Sieht seltsam aus, wurde ursprünglich von jemandem geschrieben, dem seine Shellscripte über den Kopf gewachsen sind. Soll sehr praktisch sein. Wie in Shell, m4 und AWK gilt: Alles ist Text und wird editiert. Dazu gehört TK, ein einfaches Toolkit zum Erstellen graphischer Oberflächen, daß man auch aus anderen Sprachen benutzen kann. Schau's Dir mal an. Vielleicht gehörst Du zu den Leuten, die sich schnell in TCL/TK verlieben.

Das sind so meine Tips für Alltagssachen. Wenn man sich die Sachen durchguckt und ein bißchen spielt, merkt man schon, welches Werkzeug man haben möchte.

Achja, auch noch ein Außenseiter, aber unglaublich flexibel: Guile.
Das ist ein Lisp-Dialekt, also wirklich was für Hacker und Spielkinder. Als es rauskam, war es furchtbar lahm und ressourcenfressend. Vielleicht hat sich das inzwischen geändert. Ich will es mir selber in den nächsten Tagen nochmal anschauen. Vielleicht taugt es für den Pi.

Wenn die normalen Werkzeuge fürs Formatieren von Text (z.B. für Berichte, Rechnungen, etc.) nicht mehr ausreichen, nehme ich nroff und troff. Wird mir das zu kompliziert (wie im Studium schnell mal bei Hausarbeiten), gibt es mit LaTex (tex-live) das absolute Monstrum. Ich erwähne diese Spezialsprachen, weil sie zusammen mit den obigen Sprachen ein ganzes Universum an Möglichkeiten ergeben. Es gibt da natürlich noch zugehörige Minisprachen für Graphiken, Diagramme, Funktionsplots, Tabellen und so weiter. Nur falls man zum Beispiel irgendwelche Sensordaten direkt in Datenbanken packen, in druckreife Tabellen ausgeben, mit aussagekräftigen Graphiken garnieren und auf Hochschulniveau layouten möchte. :ugeek: :mrgreen:

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 6:29 pm

Vielen Dank für die Ausführliche Antwort. :D

Ich bin gerade in ein rein praktisches Problem gelaufen. Die Daten liegen auf einem NAS. Sobald das script da drauf arbeitet, bricht das NAS ab. Ich muss die Daten also zuerst lokal auf dem Rasp bearbeiten.

Folgende Verzeichnisse gibt es:

/home/pi/tmpocr/Scanner
/home/pi/tmpocr/OCR
/home/pi/tmpocr/PDF-bearbeitet


Habe ich das script dafür richtig angepasst?

Gerade das löschen macht mir Kopfzerbrechen.

Code: Select all

  
#!/bin/sh

# feed tif into ocr step:

for i in `ls Scanner/*.tif | cut -d. -f1`;
  do mv $i home/pi/tmpocr/Scanner


for i in `ls /home/pi/tmpocr/Scanner/*.tif | cut -d. -f1`;
do tiff2pdf -o $i.pdf $i.tif;
done

# feed pdf into ocr step:

cp /home/pi/tmpocr/Scanner/*.pdf /home/pi/tmpocr/OCR/

# ocr all incoming pdf, store results in PDF-bearbeitet and
#backup those data files BEFORE the tiff2pdf step.

for i in `ls /home/pi/tmpocr/OCR/*.pdf | cut -d. -f1 `;
    do sh OCRmyPDF/OCRmyPDF.sh $i.pdf /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf &&


mv /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf /PDF-bearbeitet
rm /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf

mv /home/pi/tmpocr/Scanner/$i.* Original/;
rm /home/pi/tmpocr/Scanner/$i.*

done


frodo
Posts: 63
Joined: Wed Dec 18, 2013 2:36 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 7:45 pm

Autsch! Lies unbedingt nochmal die manpage von mv. Außerdem gibt es einen großen Unterschied zwischen "pfadname" und "pfadname/" ;)

Code: Select all

man mv
Bei dem Script in meinem letzten Post hattest Du im Grunde kaum noch etwas anzupassen. Die Argumente von tiff2pdf nämlich nur. So müßte es funktionieren:

Code: Select all

#!/bin/sh

# feed tiff into ocr step:

for i in `ls /home/pi/tmpocr/Scanner/*.tiff | cut -d. -f1`;
    do tiff2pdf -o /home/pi/tmpocr/OCR/$i.pdf $i.tiff ;
done

# feed pdf into ocr step:

cp /home/pi/tmpocr/Scanner/*.pdf OCR/

# ocr all incoming pdf, store results in PDF-bearbeitet and
#backup those data files BEFORE the tiff2pdf step.

for i in `ls /home/pi/tmpocr/OCR/*.pdf | cut -d. -f1 `;   
    do OCRmyPDF $i.pdf /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf &&
    mv /home/pi/tmpocr/Scanner/$i.* /home/pi/tmpocr/Original/;   
done

juxreal
Posts: 45
Joined: Fri Dec 13, 2013 2:54 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 7:59 pm

Vielen Dank für deine unendliche Geduld mit mir.

Das Script habe ich zum laufen bekommen, dabei ist mein NAS "ausgestiegen" - das viele lesen und schreiben quält den kleinen... :lol:

Deshalb muss ich vorher noch die Daten auf die SD Karte des PIs holen.

Dort bearbeiten und dann auf das NAS schreiben. Eine Datei nachdem anderen und dann sollte das laufen.

Die Daten müssen dann auf der SD Karte wieder gelöscht werden.

mv /dokumente/Scanns/ [Datei die er bearbeiten möchte] /home/pi/tmpocr/Scanns/ [Diese Datei wird nun wie gewohnt bearbeitet]

Hier mein Lösungsansatz - bitte bitte tu mir nicht weh. Ich war stets bemüht.

Code: Select all

#!/bin/sh

# create a local copy from NAS:

for i in `ls Scanner/*.tif | cut -d. -f1`;
  do mv $i.tif /home/pi/tmpocr/Scanner/
done

# feed tif into ocr step:
for i in `ls /home/pi/tmpocr/Scanner/*.tif | cut -d. -f1`;
do tiff2pdf -o $i.pdf $i.tif;
done

# feed pdf into ocr step:

cp /home/pi/tmpocr/Scanner/*.pdf /home/pi/tmpocr/OCR/

# ocr all incoming pdf, store results in PDF-bearbeitet and
#backup those data files BEFORE the tiff2pdf step.

for i in `ls /home/pi/tmpocr/OCR/*.pdf | cut -d. -f1 `;
    do sh OCRmyPDF/OCRmyPDF.sh $i.pdf /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf &&

mv /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf /PDF-bearbeitet
rm /home/pi/tmpocr/PDF-bearbeitet/$i-bearbeitet.pdf

mv /home/pi/tmpocr/Scanner/$i.* Original/;
rm /home/pi/tmpocr/Scanner/$i.

done


ist es sehr schlimm ?

frodo
Posts: 63
Joined: Wed Dec 18, 2013 2:36 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Thu Dec 19, 2013 8:47 pm

Scanner, Original und PDF-bearbeitet liegen auf dem NAS und /home/pi ist auf dem raspi?

Ich würde nochmal auf Tippfehler prüfen. ;)

Im ersten Schritt holst Du nur Dateien mit der Endung .tif nach /home/pi/tmpocr/Scanner/

Code: Select all

for i in `ls Scanner/*.tif | cut -d. -f1`;
  do mv $i.tif /home/pi/tmpocr/Scanner/
done
Und es ist auch nicht klar, warum Du für eine simple Kopie im Dateinamen rumbastelst.

Ein

Code: Select all

cp Scanner/* /home/pi/tmpocr/Scanner/
hätte ohne diesen Aufwand einfach alles kopiert. Es sollten ja nur tiffs und pdfs dort liegen, oder? Um sicherzugehen, könntest Du auch 2 Schritte machen:

Code: Select all

cp Scanner/*.tif /home/pi/tmpocr/Scanner/
cp Scanner/*.pdf /home/pi/tmpocr/Scanner/
Und drittens solltest Du endlich die Manpage von mv lesen! :twisted:
Wenn Du eine Datei von A nach B verschoben hast, kannst Du sie nicht mehr in A löschen. Dort ist sie nicht mehr. Probier es mal in einem Bastelverzeichnis aus und verschiebe Dateien hin und her. ;)

tomy38
Posts: 1
Joined: Wed Jan 02, 2019 8:08 am

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Wed Jan 02, 2019 8:13 am

Hallo juxreal,

wie weit bist du bei deinem Projekt OCR von PDF vorangekommen?
Läuft es?

Ich bin auch daran über meinen Scanner und Raspberry die PDF Dateien durchsuchbar zu machen.

Gruß

Thomas

alba85
Posts: 2
Joined: Wed Apr 17, 2019 10:33 pm

Re: OCR von PDF Dateien [Dokumentenverwaltung]

Fri Jul 05, 2019 11:46 am

Hallo, ja das würde mich auch interessieren. Wie ist der Stand der Dinge?

Return to “Deutsch”