2.8 Indexieren von Werken

Um ein Werk zu indexieren, muss die gewünschten XML-Datei (zum Beispiel im METS/MODS, LIDO oder TEI Format) im Hotfolder gespeichert werden. Pro einzuspielendes Werk ist eine eigene XML-Datei notwendig.

Optional können weitere Ordner neben der XML-Datei abgelegt werden damit diese bei der Indexierung Berücksichtigung finden.

Ordnersuffix

Dateinamensuffix

Funktion

_media

.jpg, .tif, .png, .jp2, .mp4, .avi, .mpg, .wav, ...

Medien. Bilder, Video und Audio

_txt

.txt

Plain-Text Volltexte

_alto

.xml

ALTO

_neralto

.xml

ALTO mit angereicherten Named Entity Tags. Sind _alto und _neralto vorhanden wird letzterem der Vorzug gegeben.

_xml

.xml

ABBYY XML

_pdf

.pdf

(vorgerenderte) PDF Seiten

_src

*.*

Dateien, die direkt zum Download angeboten werden sollen

_annotations

.json

WebAnnotationen

_cms

.xml

Text aus dem CMS

_downloadImages

-/-

Der Ordner dient als Indikator um die im Datensatz verlinkten Bilder während des Indexierprozesses automatisch herunterzuladen.

Die Funktionalität ist aktuell für die Formate METS/MODS, LIDO und DenkXWeb implementiert.

Die Ordner müssen dabei den Dateinamen der zu indexierenden XML-Datei tragen (ohne deren Erweiterung, aber mit dem entsprechenden Suffix). Im folgenden eine exemplarische Verzeichnisstruktur, bei der die Verzeichnisnamen fett markiert sind:

  • hotfolder/

    • PPN123456789.xml

    • PPN123456789_media/

      • 00000001.jpg

      • 00000002.jpg

    • PPN123456789_alto/

      • 00000001.xml

      • 00000002.xml

    • AC987654321.xml

    • AC987654321_media/

      • prefix_0001.jp2

      • prefix_0002.jp2

      • prefix_0003.jp2

    • AC987654321_src/

      • additional_document.docx

Dateinamen in Ordnern müssen jeweils den Dateinamen des entsprechenden Datei im Medienordner tragen, zum Beispiel für das Bild 00000001.jpg heißt die ALTO Datei 00000001.xml.

Da der Goobi viewer Indexer sofort anfängt zu indexieren, sobald eine XML-Datei gefunden wird, könnte die Indexierung abgeschlossen sein, bevor die Datenordner fertig kopiert wurden. In dem Fall werden die Ordner nicht berücksichtigt und verbleiben im Hotfolder. Darum sollten Werks-XML Dateien erst in den Hotfolder kopiert werden, wenn das Kopieren der dazugehörigen Datenordner abgeschlossen ist.

Falls nicht Goobi workflow für das Exportieren von Daten in den Hotfolder verwendet wird, ist darauf zu achten, dass die Konfiguration die oben beschriebenen Anforderungen erfüllt.

Last updated