2.2 Verzeichnisse
Für den Betrieb muss für den Goobi viewer Indexer eine Reihe von Ordnern konfiguriert werden, aus denen Dateien gelesen beziehungsweise in denen Dateien abgelegt werden können. Bei Nichtvorhandensein bestimmter Ordner werden diese automatisch angelegt, die Pfadkonfigurationen dürfen allerdings nicht fehlen.
config_indexer.xml
1
<init>
2
<hotFolder>/opt/digiverso/viewer/hotfolder/</hotFolder>
3
<tempFolder>/opt/digiverso/indexer/temp/</tempFolder>
4
<viewerHome>/opt/digiverso/viewer/</viewerHome>
5
<dataRepositories>
6
<strategy>SingleRepositoryStrategy</strategy>
7
<maxRecords>10000</maxRecords>
8
<dataRepository buffer="10G">/opt/digiverso/viewer/data/1</dataRepository>
9
<!-- [...] -->
10
</dataRepositories>
11
<mediaFolder>media</mediaFolder>
12
<altoFolder>alto</altoFolder>
13
<fulltextFolder>fulltext</fulltextFolder>
14
<fulltextCrowdsourcingFolder>fulltext_crowd</fulltextCrowdsourcingFolder>
15
<wcFolder>wc</wcFolder>
16
<pagePdfFolder>pdf</pagePdfFolder>
17
<sourceContentFolder>source</sourceContentFolder>
18
<userGeneratedContentFolder>ugc</userGeneratedContentFolder>
19
<annotationFolder>annotations</annotationFolder>
20
<indexedMets>indexed_mets</indexedMets>
21
<indexedLido>indexed_lido</indexedLido>
22
<indexedDenkXweb>indexed_denkxweb</indexedDenkXweb>
23
<indexedDublinCore>indexed_dublincore</indexedDublinCore>
24
<successFolder>/opt/digiverso/viewer/success/</successFolder>
25
<updatedMets>/opt/digiverso/viewer/updated_mets/</updatedMets>
26
<deletedMets>/opt/digiverso/viewer/deleted_mets/</deletedMets>
27
<errorMets>/opt/digiverso/viewer/error_mets/</errorMets>
28
<origLido>/opt/digiverso/viewer/orig_lido/</origLido>
29
<origDenkXweb>/opt/digiverso/viewer/orig_denkxweb/</origDenkXweb>
30
</init>
Copied!
Die Parameter sind in der folgenden Tabelle im einzelnen erklärt:
Option
Bedeutung
hotFolder
In diesem Ordner werden zu indexierende Inhalte abgelegt. Der Ordner wird vom Goobi viewer Indexer in kurzen Zeitabständen auf neue XML Dateien überprüft. Wenn neue Dateien gefunden werden, werden diese (falls ein unterstütztes Datenformat vorliegt) nacheinander indexiert und aus dem Hotfolder entfernt.
tempFolder
Ordner für temporäre Dateien.
viewerHome
Basispfad der Goobi viewer Core Verzeichnisstruktur im Dateisystem.
dataRepositories/strategy
Es gibt drei mögliche Strategien:
  1. 1.
    SingleRepositoryStrategy (Standard)
  2. 2.
    MaxRecordNumberStrategy (maximale Anzahl an Werken pro DataRepository)
  3. 3.
    RemainingSpaceStrategy (kleinster ausreichender Speicherplatz)
Die Standardkonfiguration mit der SingleRepositoryStrategy schreibt alles in einen Ordner.
dataRepositories/maxRecords
Anzahl der Werke, die ein Datenrepository maximal enthalten darf. Standardwert ist 10000. Dieser Wert wird nur bei der MaxRecordNumberStrategy ausgewertet.
dataRepositories/dataRepository
Dieses Element darf beliebig oft existieren und definiert die einzelnen Datenrepositories. Es muss der volle Pfad zu dem Datenrepository eingetragen werden. In jedem Datenrepository befindet sich jeweils eine komplette Ordnerstruktur für Mediendateien, XML, Volltexte etc. Diese werden automatisch angelegt.
Mit dem optionalen Attribut buffer kann speziell für RemainingSpaceStrategy ein Speicherpuffer definiert werden, der ungenutzt bleiben soll. Es können hier Größen in Bytes, Megabytes (großes "M" hinter der Zahl) oder Gigabytes (großes "G" hinter der Zahl) angegeben werden. Standardwert ist 0 Bytes.
mediaFolder
Dieser Ordner dient als Ablage für etwaige Mediendateien (Bilder, Video und Audio) eines indexerten Objekts. Diese werden jeweils in einem Unterordner abgelegt, der den Identifier des jeweiligen Objekts als Namen trägt. Die Mediendateien müssen stets vorliegen, da sie aus diesem Ordner in den Goobi viewer geladen werden. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
altoFolder
In diesem Ordner werden ALTO XML Dateien abgelegt. Diese enthalten detaillierte OCR Ergebnisse und können sowohl für die Extraktion von Volltexten als auch von Wortkoordinaten verwendet werden. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
altoCrowdsourcingFolder
Dieser Ordner enthält ebenfalls ALTO XML Dateien. Diese stammen allerdings aus den Crowdsourcing Funktionen des Goobi viewers. Diese werden beim Indexieren bevorzugt verwendet, das heißt wenn für eine Seite ein ALTO Dokument aus dem Crowdsourcing vorhanden ist, wird dieses indexiert, und nicht das Dokument aus dem OCR.
fulltextFolder
Hier werden die (plaintext) Volltext Dateien nach dem Indexieren abgelegt. Die jeweils in einem Unterordner abgelegt werden, der den Identifier des jeweiligen Objekts als Namen trägt. Sie sind zwar nicht für den Betrieb des Goobi viewers erforderlich (die Volltexte werden vollständig indexiert), allerdings können sie für eine evtl. Reindexierung eines Objekts wiederverwendet werden (für den Fall, dass kein Volltext Ordner im Hotfolder gefunden wird, sucht der Goobi viewer Indexer nach einem bereits vorhandenen Volltext Ordner aus früherer Indexierung). Folgendes ist dabei zu beachten: Ist für eine Seite zusätzlich ein ALTO Dokument vorhanden, wird dieses bevorzugt für die Indexierung von Volltexten verwendet. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
fulltextCrowsourcingFolder
Dieser Ordner enthält ebenfalls einfache Volltext Dateien. Diese stammen allerdings aus den Crowdsourcing Funktionen des Goobi viewers. Diese werden beim Indexieren bevorzugt verwendet, das heißt wenn für eine Seite ein Volltext Dokument aus dem Crowdsourcing vorhanden ist, wird dieses indexiert, und nicht das Dokument aus dem OCR.
wcFolder
Hier werden die TEI Wortkoordinaten Dateien nach dem Indexieren abgelegt. Diese werden jeweils in einem Unterordner abgelegt, der den Identifier des jeweiligen Objekts als Namen trägt. Sie sind zwar nicht für den Betrieb des Goobi viewers erforderlich (die Wortkoordinaten werden vollständig indexiert), allerdings können sie für eine evtl. Reindexierung eines Objekts wiederverwendet werden (für den Fall, dass kein Wortkoordinaten Ordner im Hotfolder gefunden wird, sucht der Goobi viewer Indexer nach einem bereits vorhandenen Wortkoordinaten Ordner aus früherer Indexierung). Folgendes ist dabei zu beachten: Ist für eine Seite zusätzlich ein ALTO Dokument vorhanden, wird dieses bevorzugt für die Generierung von Wortkoordinaten verwendet. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
pagePdfFolder
Hier werden vorgerenderte PDF Dateien für die einzelnen Seiten des Objekts nach dem Indexieren abgelegt. Diese werden jeweils in einem Unterordner abgelegt, der den Identifier des jeweiligen Objekts als Namen trägt. Bei Vorhandensein dieser Dateien kann für das betreffende Objekt die Generierung von PDF Dokumenten erheblich beschleunigt werden. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
sourceContentFolder
Hier werden Dateien abgelegt, die für das Objekt zum direkten Download angeboten werden sollen (zum Beispiel Born Digital Materialien) abgelegt. Diese werden jeweils in einem Unterordner abgelegt, der den Identifier des jeweiligen Objekts als Namen trägt. Für jede Datei, die hier liegt, wird für das betreffende Objekt jeweils ein Download Link angezeigt. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
userGeneratedContentFolder
Hier werden XML Dokumente abgelegt, die nutzergenerierte Inhalte aus den Crowdsourcing Funktionen des Goobi viewers stammen. Diese werden für die Anzeige und die Suchbarkeit dieser Inhalte im normalen Betrieb verwendet. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
annotationFolder
Enthält JSON WebAnnotations die zum Beispiel über eine Crowdsourcing Kampagne erstellt wurden.
indexedMets
Hier werden die METS Dateien nach dem Indexieren abgelegt. Sie sind nicht für den allgemeinen Betrieb des Goobi viewers erforderlich, müssen allerdings vorliegen, falls ein Dokument über den METS Resolver angefordert wird. Dieser Ordner wird relativ zu dataRepositoriesHome (bei dataRepositories/enabled = true) beziehungsweise zu viewerHome (bei dataRepositories/enabled = false) gesucht beziehungsweise angelegt. Aus diesem Grund darf der Wert nur den Namen und keinen absoluten Pfad enthalten.
indexedLido
Hier werden die LIDO Dateien von Einzelobjekten nach dem Indexieren abgelegt. Sie sind nicht für den allgemeinen Betrieb des Goobi viewers erforderlich, müssen allerdings vorliegen, falls ein Dokument über den LIDO Resolver angefordert wird.
indexedDenkXweb
Hier werden die DenkXweb Dateien von Einzelmonumenten nach dem Indexieren abgelegt.
indexedDublinCore
Hier werden die Dublin Core XML Dateien die über das Admin Backend erzeugt wurden nach dem Indexieren abgelegt.
updatedMets
Wird eine METS oder LIDO Datei reindexiert, wird die vorherige Version dieser Datei hier archiviert. Dabei wird an den Dateinamen der Zeitstempel der jeweiligen Reindexierung angehängt.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
deletedMets
Wird ein Objekt aus dem Index gelöscht, wird die betreffende METS beziehungsweise LIDO Datei hier abgelegt.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
successFolder
Hier werden Dateien abgelegt, die dazu dienen, Goobi eine erfolgreiche Indexierung zu signalisieren. Anhand dieser Dateien erfährt Goobi den Ausgang der Indexierung eines Vorgangs und meldet diesen dem Benutzer.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
errorMets
Scheitert die Indexierung eines Objekts, wird die betreffende METS beziehungsweise LIDO Datei hier abgelegt. Zusätzlich wird die Fehlermeldung, die der Goobi viewer Indexer generiert, in eine Logdatei geschrieben und ebenfalls dort abgelegt. Anhand dieser Dateien erfährt Goobi den Ausgang der Indexierung eines Vorgangs und meldet diesen dem Benutzer.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
origLido
Hier werden die originalen LIDO Dateien, so wie sie im Hotfolder vorgefunden werden, abgelegt. Diese können unter Umständen Tausende von Objekten enthalten, die zunächst in einzelne LIDO Datensätze aufgespalten werden. Die originalen Dateien sind für den Betrieb nicht notwendig und dienen nur der Archivierung.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
origDenkXweb
Hier werden die originalen DenkXweb Dateien, so wie sie im Hotfolder vorgefunden werden, abgelegt. Diese können unter Umständen Tausende von Monumente enthalten, die zunächst in einzelne DenkXweb Datensätze aufgespalten werden. Die originalen Dateien sind für den Betrieb nicht notwendig und dienen nur der Archivierung.
Für den Goobi viewer besitzt dieser Ordner keine Relevanz, muss aber dennoch existieren.
Last modified 14d ago
Copy link