2.8 Indexieren von Werken
Last updated
Last updated
Um ein Werk zu indexieren, muss die gewünschten XML-Datei (zum Beispiel im METS/MODS, LIDO oder TEI Format) im gespeichert werden. Pro einzuspielendes Werk ist eine eigene XML-Datei notwendig.
Optional können weitere Ordner neben der XML-Datei abgelegt werden damit diese bei der Indexierung Berücksichtigung finden.
Ordnersuffix
Dateinamensuffix
Funktion
_media
.jpg, .tif, .png, .jp2, .mp4, .avi, .mpg, .wav, ...
Medien. Bilder, Video und Audio
_txt
.txt
Plain-Text Volltexte
_alto
.xml
ALTO
_neralto
.xml
ALTO mit angereicherten Named Entity Tags. Sind _alto
und _neralto
vorhanden wird letzterem der Vorzug gegeben.
_xml
.xml
ABBYY XML
_pdf
(vorgerenderte) PDF Seiten
_src
*.*
Dateien, die direkt zum Download angeboten werden sollen
_annotations
.json
WebAnnotationen
_cms
.xml
Text aus dem CMS
_downloadImages
-/-
Der Ordner dient als Indikator um die im Datensatz verlinkten Bilder während des Indexierprozesses automatisch herunterzuladen.
Die Funktionalität ist aktuell für die Formate METS/MODS, LIDO und DenkXWeb implementiert.
Die Ordner müssen dabei den Dateinamen der zu indexierenden XML-Datei tragen (ohne deren Erweiterung, aber mit dem entsprechenden Suffix). Im folgenden eine exemplarische Verzeichnisstruktur, bei der die Verzeichnisnamen fett markiert sind:
hotfolder/
PPN123456789.xml
PPN123456789_media/
00000001.jpg
00000002.jpg
PPN123456789_alto/
00000001.xml
00000002.xml
AC987654321.xml
AC987654321_media/
prefix_0001.jp2
prefix_0002.jp2
prefix_0003.jp2
AC987654321_src/
additional_document.docx
Falls nicht Goobi workflow für das Exportieren von Daten in den Hotfolder verwendet wird, ist darauf zu achten, dass die Konfiguration die oben beschriebenen Anforderungen erfüllt.