2.8 Indexieren von Werken
Um ein Werk zu indexieren, muss die gewünschten XML-Datei (zum Beispiel im METS/MODS, LIDO oder TEI Format) im Hotfolder gespeichert werden. Pro einzuspielendes Werk ist eine eigene XML-Datei notwendig.
Optional können weitere Ordner neben der XML-Datei abgelegt werden damit diese bei der Indexierung Berücksichtigung finden.
Ordnersuffix | Dateinamensuffix | Funktion |
_media | .jpg, .tif, .png, .jp2, .mp4, .avi, .mpg, .wav, ... | Medien. Bilder, Video und Audio |
_txt | .txt | Plain-Text Volltexte |
_alto | .xml | ALTO |
_neralto | .xml | ALTO mit angereicherten Named Entity Tags. Sind |
_xml | .xml | ABBYY XML |
_pdf | (vorgerenderte) PDF Seiten | |
_src | *.* | Dateien, die direkt zum Download angeboten werden sollen |
_annotations | .json | WebAnnotationen |
_cms | .xml | Text aus dem CMS |
_downloadImages | -/- | Der Ordner dient als Indikator um die im Datensatz verlinkten Bilder während des Indexierprozesses automatisch herunterzuladen. Die Funktionalität ist aktuell für die Formate METS/MODS, LIDO und DenkXWeb implementiert. |
Die Ordner müssen dabei den Dateinamen der zu indexierenden XML-Datei tragen (ohne deren Erweiterung, aber mit dem entsprechenden Suffix). Im folgenden eine exemplarische Verzeichnisstruktur, bei der die Verzeichnisnamen fett markiert sind:
hotfolder/
PPN123456789.xml
PPN123456789_media/
00000001.jpg
00000002.jpg
PPN123456789_alto/
00000001.xml
00000002.xml
AC987654321.xml
AC987654321_media/
prefix_0001.jp2
prefix_0002.jp2
prefix_0003.jp2
AC987654321_src/
additional_document.docx
Dateinamen in Ordnern müssen jeweils den Dateinamen des entsprechenden Datei im Medienordner tragen, zum Beispiel für das Bild 00000001.jpg heißt die ALTO Datei 00000001.xml.
Da der Goobi viewer Indexer sofort anfängt zu indexieren, sobald eine XML-Datei gefunden wird, könnte die Indexierung abgeschlossen sein, bevor die Datenordner fertig kopiert wurden. In dem Fall werden die Ordner nicht berücksichtigt und verbleiben im Hotfolder. Darum sollten Werks-XML Dateien erst in den Hotfolder kopiert werden, wenn das Kopieren der dazugehörigen Datenordner abgeschlossen ist.
Falls nicht Goobi workflow für das Exportieren von Daten in den Hotfolder verwendet wird, ist darauf zu achten, dass die Konfiguration die oben beschriebenen Anforderungen erfüllt.
Last updated