2.8 Indexieren von Werken
Last updated
Last updated
Um ein Werk zu indexieren, muss die gewünschten XML-Datei (zum Beispiel im METS/MODS, LIDO oder TEI Format) im Hotfolder gespeichert werden. Pro einzuspielendes Werk ist eine eigene XML-Datei notwendig.
Optional können weitere Ordner neben der XML-Datei abgelegt werden damit diese bei der Indexierung Berücksichtigung finden.
Die Ordner müssen dabei den Dateinamen der zu indexierenden XML-Datei tragen (ohne deren Erweiterung, aber mit dem entsprechenden Suffix). Im folgenden eine exemplarische Verzeichnisstruktur, bei der die Verzeichnisnamen fett markiert sind:
hotfolder/
PPN123456789.xml
PPN123456789_media/
00000001.jpg
00000002.jpg
PPN123456789_alto/
00000001.xml
00000002.xml
AC987654321.xml
AC987654321_media/
prefix_0001.jp2
prefix_0002.jp2
prefix_0003.jp2
AC987654321_src/
additional_document.docx
Dateinamen in Ordnern müssen jeweils den Dateinamen des entsprechenden Datei im Medienordner tragen, zum Beispiel für das Bild 00000001.jpg heißt die ALTO Datei 00000001.xml.
Da der Goobi viewer Indexer sofort anfängt zu indexieren, sobald eine XML-Datei gefunden wird, könnte die Indexierung abgeschlossen sein, bevor die Datenordner fertig kopiert wurden. In dem Fall werden die Ordner nicht berücksichtigt und verbleiben im Hotfolder. Darum sollten Werks-XML Dateien erst in den Hotfolder kopiert werden, wenn das Kopieren der dazugehörigen Datenordner abgeschlossen ist.
Falls nicht Goobi workflow für das Exportieren von Daten in den Hotfolder verwendet wird, ist darauf zu achten, dass die Konfiguration die oben beschriebenen Anforderungen erfüllt.
Ordnersuffix
Dateinamensuffix
Funktion
_media
.jpg, .tif, .png, .jp2, .mp4, .avi, .mpg, .wav, ...
Medien. Bilder, Video und Audio
_txt
.txt
Plain-Text Volltexte
_alto
.xml
ALTO
_neralto
.xml
ALTO mit angereicherten Named Entity Tags. Sind _alto
und _neralto
vorhanden wird letzterem der Vorzug gegeben.
_xml
.xml
ABBYY XML
_pdf
(vorgerenderte) PDF Seiten
_src
*.*
Dateien, die direkt zum Download angeboten werden sollen
_annotations
.json
WebAnnotationen
_cms
.xml
Text aus dem CMS
_downloadImages
-/-
Der Ordner dient als Indikator um die im Datensatz verlinkten Bilder während des Indexierprozesses automatisch herunterzuladen.
Die Funktionalität ist aktuell für die Formate METS/MODS, LIDO und DenkXWeb implementiert.