Comment on page
2.8 Indexieren von Werken
Um ein Werk zu indexieren, muss die gewünschten XML-Datei (zum Beispiel im METS/MODS, LIDO oder TEI Format) im Hotfolder gespeichert werden. Pro einzuspielendes Werk ist eine eigene XML-Datei notwendig.
Optional können weitere Ordner neben der XML-Datei abgelegt werden damit diese bei der Indexierung Berücksichtigung finden.
Ordnersuffix | Dateinamensuffix | Funktion |
_media | .jpg, .tif, .png, .jp2, .mp4, .avi, .mpg, .wav, ... | Medien. Bilder, Video und Audio |
_txt | .txt | Plain-Text Volltexte |
_alto | .xml | ALTO |
_neralto | .xml | ALTO mit angereicherten Named Entity Tags. Sind _alto und _neralto vorhanden wird letzterem der Vorzug gegeben. |
_xml | .xml | ABBYY XML |
_pdf | .pdf | (vorgerenderte) PDF Seiten |
_src | *.* | Dateien, die direkt zum Download angeboten werden sollen |
_annotations | .json | WebAnnotationen |
_cms | .xml | Text aus dem CMS |
_downloadImages | -/- | Der Ordner dient als Indikator um die im Datensatz verlinkten Bilder während des Indexierprozesses automatisch herunterzuladen. Die Funktionalität ist aktuell für die Formate METS/MODS, LIDO und DenkXWeb implementiert. |
Die Ordner müssen dabei den Dateinamen der zu indexierenden XML-Datei tragen (ohne deren Erweiterung, aber mit dem entsprechenden Suffix). Im folgenden eine exemplarische Verzeichnisstruktur, bei der die Verzeichnisnamen fett markiert sind:
- hotfolder/
- PPN123456789.xml
- PPN123456789_media/
- 00000001.jpg
- 00000002.jpg
- PPN123456789_alto/
- 00000001.xml
- 00000002.xml
- AC987654321.xml
- AC987654321_media/
- prefix_0001.jp2
- prefix_0002.jp2
- prefix_0003.jp2
- AC987654321_src/
- additional_document.docx
Dateinamen in Ordnern müssen jeweils den Dateinamen des entsprechenden Datei im Medienordner tragen, zum Beispiel für das Bild 00000001.jpg heißt die ALTO Datei 00000001.xml.
Da der Goobi viewer Indexer sofort anfängt zu indexieren, sobald eine XML-Datei gefunden wird, könnte die Indexierung abgeschlossen sein, bevor die Datenordner fertig kopiert wurden. In dem Fall werden die Ordner nicht berücksichtigt und verbleiben im Hotfolder. Darum sollten Werks-XML Dateien erst in den Hotfolder kopiert werden, wenn das Kopieren der dazugehörigen Datenordner abgeschlossen ist.
Falls nicht Goobi workflow für das Exportieren von Daten in den Hotfolder verwendet wird, ist darauf zu achten, dass die Konfiguration die oben beschriebenen Anforderungen erfüllt.
Last modified 10mo ago