4.5. Volltexterkennung - OCR
Zur Durchführung einer Texterkennung kann der TaskManager mit diesem Plugin an Goobi angebunden werden. Mittels der gewählten Konfiguration läßt sich dabei festlegen, welche Datenformate aus der OCR Engine übernommen werden sollen, um diese z.B. an Goobi zurückzuliefern.
Aufruf des Plugins
Der TaskClient Aufruf für einen OCR-Job ist den Aufrufen für andere Jobtypen sehr ähnlich:
Parameter
Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:
Parameter
Mögliche Goobi Variable
Bedeutung
-itm
http://localhost/itm/service
URL zur Schnittstelle des intranda TaskManagers
-e
, --returnError
-
Wenn angegeben, beendet sich der TaskClient mit einem Fehlercode, um das automatische Fortschreiten im Workflow zu unterbinden
-p
0 – 10
Priorität zur Verarbeitung dieses Jobs
-gid
{processid}
ID des Goobi-Vorgangs
-i
{stepid}
Die ID des Arbeitsschrittes, der den Aufruf startet
-T
, --title
{processtitle}
Der Vorgangstitel in Goobi, für den der Aufruf gestartet wird
-t
, --jobtype
OCR
Der Typ des Jobs
-n
, --templatename
template.xml
Name der zuvor erzeugten Konfigurationsdatei
-s
, --source
{tifpath}
Pfad zum media Verzeichnis des Vorgangs
-d
, --destination
{processpath}
Pfad zum Hauptverzeichnis des Vorgangs
-f
, --fontType
bspw. {product.Schrifttyp}
oder {process.Schrifttyp}
Schrifttyp, unterstützt werden Fraktur und Antiqua
-l
, `--language
${metas.DocLanguage}
Sprache des zu erkennenden Textes
-st
intranda-abbyy
OCR-Server-Typ
Arbeitsweise des Plugins
Wenn ein neuer OCR Job im intranda TaskManager eingegangen ist, werden je nach Anzahl der zu erkennenden Bilder verschiedene Tickets erzeugt. Typische Ticketgrößen sind maximal 500 Images bei maximal 10 GB Speichergröße der Bilder. Jedes Ticket besteht aus einer Liste der Bilddateien sowie aus einer Angabe, welche OCR Ausgabeformate erzeugt werden sollen.
Die erzeugten Tickets werden einzeln abgearbeitet. Der intranda TaskManager lädt das Ticket und die dazugehörenden Bilder in den OCR Input Ordner. Dieser Ordner kann entweder ein lokaler Ordner, ein gemounteter Ordner oder ein WebDav Ordner sein. Die OCR Software überwacht diesen Ordner und fängt nach vollständiger Übertragung der Daten mit der Texterkennung an.
Der intranda TaskManager überwacht nun den Error-Ordner auf Fehler sowie den Control-Ordner der OCR Software auf Ergebnisberichte. Ist eine entsprechende Control-Datei eingegangen, werden im Output-Ordner alle zu diesem Ticket gehörenden Daten zusammengestellt und heruntergeladen. Sie werden im Unterordner ocr
des jeweiligen Vorgangsordners in einzelne Unterordner anhand ihrer Datei-Endung gespeichert.
Last updated