4.7. Internet Archive Download
Ein effizientes Harvesting des Internet Archive wird in Goobi ebenfalls durch die Zusammenarbeit mit dem intranda TaskManager möglich. Hierzu müssen zwei Voraussetzungen zunächst erfüllt sein. Das WebDavCommunicator-Plugin muss in dem Plugin-Ordner des TaskManagers vorliegen. Standardmäßig handelt es sich hierbei um folgenden Pfad:
1
/opt/digiverso/itm/plugins/WebDavCommunicator-<version>.jar
Copied!
Das Plugin selbst wird ebenfalls in den Plugin-Ordner kopiert. Standardmäßig handelt es sich hierbei um folgenden Pfad:
1
/opt/digiverso/itm/plugins/IADownloadPlugin-<version>.jar
Copied!

Aufruf des Plugins

Der Aufruf des Internet-Archive-Harvestings wird innerhalb von Goobi in einem Workflowschritt folgendermaßen konfiguriert:
1
/usr/bin/java -jar /opt/digiverso/itm/bin/TaskClient.jar
2
-itm http:~/~/localhost/itm/service
3
-s http:~/~/archive.org/download/${meta.CatalogIDDigital}
4
-d {imagepath}/source/
5
-n template
6
-e -i {stepid}
7
–T {processtitle}
8
-gid {processid}
9
-t IADOWNLOAD
Copied!

Parameter

Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:
Parameter
Mögliche Goobi Variable
Bedeutung
-itm
http://localhost/itm/service
URL zur Schnittstelle des intranda TaskManagers
-e, --returnError
-
Wenn angegeben, beendet sich der TaskClient mit einem Fehlercode, um das automatische Fortschreiten im Workflow zu unterbinden
-p
0 – 10
Priorität zur Verarbeitung dieses Jobs
-gid
{processid}
ID des Goobi-Vorgangs
-i
{stepid}
Die ID des Arbeitsschrittes, der den Aufruf startet
-T, --title
{processtitle}
Der Vorgangstitel in Goobi, für den der Aufruf gestartet wird
-t, --jobtype
IADOWNLOAD
Der Typ des Jobs
-n, --templatename
template
Name der zuvor erzeugten Konfigurationsdatei
-s, --source
http://archive.org/download/${meta.CatalogIDDigital}
Pfad zur URL des Werkes im Internet Archive
-d, --destination
{processpath}
Pfad zum Hauptverzeichnis des Vorgangs

Arbeitsweise des Plugins

Dem Plugin wird eine URL zu einem Band im Internet Archive übergeben. Von dort werden die folgenden Daten in das jeweils übergebene Zielverzeichnis heruntergeladen:
1
scandata.xml
2
marc.xml
3
abbyy.gz
4
jp2.zip
Copied!
Schlägt ein Download fehl, wird zunächst die Priorität des Jobs heruntergesetzt und versucht den nächsten Job herunterzuladen. Diese fehlerhaften Versuche werden an Goobi gemeldet und dort im Vorgangslog als Warnung dargestellt.
Jeder Job hat zu Beginn seiner Laufzeit im TaskManager die Priorität 10. Je höher die Priorität, desto eher wird ein Job abgearbeitet. Ist die Priorität eines Jobs bei 0 angelangt, wird der Download noch erneute vier Mal neu versucht. Schlagen alle Versuche des Downloads fehl, wird der Job als fehlerhaft gewertet und mit einer Fehlermeldung an Goobi zurückgesendet.
Last modified 3yr ago