OCR mittels Transkribus
Step Plugin für Goobi workflow zur Erzeugung von OCR mittels Transkribus
Last updated
Step Plugin für Goobi workflow zur Erzeugung von OCR mittels Transkribus
Last updated
Name | Wert |
---|---|
Die vorliegende Dokumentation beschreibt die Installation, Konfiguration und den Einsatz des Step-Plugins für die OCR-Durchführung mittels Transkribus.
Um das Plugin nutzen zu können, müssen folgende Dateien installiert werden:
Nach der Installation des Plugins kann dieses innerhalb des Workflows für den jeweiligen Arbeitsschritt ausgewählt und damit automatisch ausgeführt werden. Ein Workflow könnte dabei beispielhaft wie folgt aussehen:
Dabei muss der Arbeitsschritt so konfiguriert werden, dass das Plugin ausgewählt wird und die Checkbox für die Zeitverzögerung gesetzt sein.
Das Plugin ist so konzipiert, dass es beim Start zunächst alle Bilder eines Vorgangs zu Transkribus hochlädt und den Arbeitsschritt anschließend in Bearbeitung läßt. Im Dateisystem innerhalb des Unterverzeichnisses ocr
des Vorgangs wird dabei eine Datei processing.json
erzeugt, die einen genauen Status der jeweiligen Seiten abbildet. Diese sieht beispielhaft so aus:
Periodisch ruft Goobi im Hintergrund alle Delay-Plugins auf, so auch dieses. Bei jedem automatischen Aufruf und auch jedem manuellen Aufruf über die administrative Oberfläche für die regelmäßigen Aufgaben, versucht das Plugin die noch nicht abgeschlossenen Seiten herunterzuladen.
Im Fall, dass alle Seiten heruntergeladen werden konnten, wird der Arbeitsschritt geschlossen und der Workflow fortgesetzt. Im Fehlerfall hingegen, ändert der Schritt seinen Status zu einem Fehler weist entsprechende Fehlermeldungen im Journal auf.
Sollte der Fall eintreten, dass eine Seite nicht richtig hochgeladen, verarbeitet oder heruntergeladen werden, empfiehlt es sich, folgendermaßen vorzugehen:
Öffnen der entsprechenden processing.json
-Datei aus dem ocr
-Verzeichnis des Vorgangs
Setzen des Wertes in status
auf NEW
für das entsprechende Bild
Eventuell die Anzahl für failCounter
und downloadCounter
wieder auf 0 setzen
Den Arbeitsschritt im Workflow wieder auf In Bearbeitung
setzen
Manuell aus der administrative Oberfläche für die regelmäßigen Aufgaben den Delay-Job neu starten
Die Konfiguration des Plugins erfolgt in der Datei plugin_intranda_step_transkribus.xml
wie hier aufgezeigt:
Der Block <config>
kann für verschiedene Projekte oder Arbeitsschritte wiederholt vorkommen, um innerhalb verschiedener Workflows unterschiedliche Aktionen durchführen zu können. Die weiteren Parameter innerhalb dieser Konfigurationsdatei haben folgende Bedeutungen:
Neben diesen allgemeinen Parametern stehen die folgenden Parameter für die weitergehende Konfiguration zur Verfügung:
Parameter | Erläuterung |
---|---|
Parameter | Erläuterung |
---|---|
project
Dieser Parameter legt fest, für welches Projekt der aktuelle Block <config>
gelten soll. Verwendet wird hierbei der Name des Projektes. Dieser Parameter kann mehrfach pro <config>
Block vorkommen.
step
Dieser Parameter steuert, für welche Arbeitsschritte der Block <config>
gelten soll. Verwendet wird hier der Name des Arbeitsschritts. Dieser Parameter kann mehrfach pro <config>
Block vorkommen.
url
URL für den Lizenzserver von intranda
login
Login für den Lizenzserver von intranda
password
Passwort für den Lizenzserver von intranda
model
Zu verwendende Vorgangseigenschaft, in der die Transkribus-Model-ID hinterlegt ist. Üblicherweise heisst diese Eigenschaft Transkribus Model
model-default
Zu verwendende Transkribus-Model-ID im Fall, dass im Vorgang keine Eigenschaft mit einem Wert vorhanden ist. Beispiel: 36202
max-failed
Anzahl der maximalen neuen Versuche, falls eine OCR für eine Seite nicht durchgeführt werden kann. Der Arbeitsschritt verbleibt beim Überschreiten der Versuche im Fehlerstatus.
max-download
Anzahl der maximalen Versuche, das Ergebnis der OCR von Transkribus herunterzuladen. Der Arbeitsschritt verbleibt beim Überschreiten der Versuche im Fehlerstatus.
Identifier
intranda_step_transkribus
Repository
Lizenz
Proprietary commercial
Letzte Änderung
28.11.2024 07:24:10