Archiv-Daten-Import
Dies ist eine technische Dokumentation für das Import Plugin von Archiv-Daten aus einer hierarchisch organisierten Exceldatei.
Übersicht
Name | Wert |
---|---|
Identifier | intranda_import_crown |
Repository | |
Lizenz | GPL 2.0 oder neuer |
Letzte Änderung | 25.07.2024 12:03:18 |
Einführung
Die vorliegende Dokumentation beschreibt die Installation, Konfiguration und den Einsatz des Importplugins für Archiv-Daten aus einer hierarchisch organisierten Exceldatei.
Mithilfe dieses Plugins können Daten aus einer Exceldatei importiert werden. Dabei werden die einzelnen Zeilen zu Goobi-Vorgängen konvertiert und es können Bilder automatisch mit importiert werden. Darüber hinaus wird ebenfalls eine hierarchische EAD-Tektonik erstellt.
Installation
Um das Plugin nutzen zu können, müssen folgende Dateien installiert werden:
Außerdem muss die XML-Datenbank BaseX
im Hintergrund laufen und korrekt eingerichtet sein. Die Installation wird hier detailliert beschrieben.
Überblick und Funktionsweise
Um den Import zu nutzen, muss in den Produktionsvorlagen der Massenimportbereich geöffnet werden und im Reiter Dateiupload-Import das Plugin intranda_import_crown
ausgewählt werden. Anschließend kann eine Excel-Datei hochgeladen und importiert werden.
Die zu importierende Exceldatei muss beispielhaft eine folgende Struktur beinhalten:
Shelfmark | Comment | ||||||
CR_1 | Reichskrone | CR_1 | comment | ||||
CR_1_A-H | Kronreif | CR_1_A-H | another comment | ||||
CR_1_A | Platte A, Stirnplatte | ||||||
CR_1_A_GrPl | Grundplatte | ||||||
CR_1_A_GrPl_1 | Riss in Grundplatte (?) | ||||||
CR_1_A_GrPl_2 | Riss in Grundplatte und Grundplattenperldrahtumsäumung | ||||||
CR_1_A_GrPl_3 | Riss in Grundplatte | ||||||
CR_1_A_GrPl_4 | Riss in Grundplatte und Grundplattenperldrahtumsäumung | ||||||
CR_1_A_GrPl_5 | Deformierung von Grundplatte | ||||||
CR_1_A_GrPl_6 | Steg durch Öffnung in Grundplatte hinter Fa_4 | ||||||
CR_1_A_GrPl_7 | 4 Löcher in Grundplatte | ||||||
CR_1_A_GrPl_8 | Löcher in Grundplatte | ||||||
CR_1_A_GrPl_9 | 4 Löcher in Grundplatte | ||||||
CR_1_A_GrPl_10 | angelöteter Span auf Grundplatte | ||||||
CR_1_A_SchS | Scharnierstift | ||||||
CR_1_A_SchR | Scharnierrohre | ||||||
CR_1_A_SchR_1 | Scharnierrohr | ||||||
CR_1_A_SchR_2 | Scharnierrohr | ||||||
CR_1_A_SchR_3 | Scharnierrohr | ||||||
CR_1_A_GrUm | Grundplattenperldrahtumsäumung | ||||||
CR_1_A_GrUm_1 | Grundplattenperldrahtumsäumung | ||||||
CR_1_A_GrUm_2 | Grundplattenperldrahtumsäumung | ||||||
CR_1_A_GrFi | Grundplattenfiliigrandekor | ||||||
CR_1_A_RoeG | Röhrchen mit Granalien | ||||||
CR_1_A_RoeG_1 | Röhrchen mit Kugelpyramide | ||||||
CR_1_A_RoeG_2 | Röhrchen mit Kugelpyramide |
Diese Excel-Datei wird während des Imports zeilenweise eingelesen und analysiert. Dabei wird zuerst geprüft, wie tief die aktuelle Zeile eingerückt wurde. Ist keine Einrückung vorhanden, liegt das root-Element der Tektonik vor. Ansonsten handelt es sich um Unterelemente. Das übergeordnete Element einer jeden Zeile ist dabei jeweils das letzte Element mit einer geringeren Einrückung.
Als nächstes wird der Inhalt der Zellen gelesen. Dabei werden sowohl die hierarchisch eingerückten Zellen als auch eventuell vorhandene fest definierte Spalten beachtet.
Welcher Inhalt zu welchem EAD- oder Metadatenfeld importiert wird, wird in der dazugehörigen Konfigurationsdatei festgelegt.
Wenn die erste Information innerhalb der Excel-Datei fett formatiert ist, wird für diese Zeile auch ein Vorgang erstellt und nach zugehörigen Bildern gesucht. Diese Bilder werden innerhalb eines konfigurierten Ordners in Unterordnern erwartet, die nach der Inventarnummer benannt sind. Diese können entweder flach in einer Ordnerliste organisiert sein oder der gleichen hierarchischen Struktur folgen wie die Tektonik.
Wird ein Ordner gefunden, werden alle darin enthaltenen Dateien aufgelistet und nach folgenden Regeln geprüft:
ignoriere alle Daten, die kein
tif
,jpg
oder ´wmv` sindignoriere alle Dateien, die das Wort
komprimiert
´` enthaltenwenn eine Datei ohne den suffix
_bearbeitet
gefunden wurde, prüfe, ob es eine Datei mit dem gleichen Namen und dem suffix_bearbeitet
gibt. Falls ja, ignoriere die aktuelle Datei un nutze die Version mit_bearbeitet
wenn eine
jpg
-Datei gefunden wurde, prüfe, ob es eintif
mit dem gleichen Namen gibt, falls ja, ignoriere diejpg
-Datei und nutze dastif
Konfiguration
Die Konfiguration erfolgt in der Datei plugin_intranda_import_crown.xml
:
Im Feld <template>
wird definiert, für welche Produktionsvorlage die vorliegende Konfiguration angewendet werden soll. Da das <config>
-Element wiederholbar ist, sind unterschiedliche Konfigurationen für verschiedene Produktionsvorlagen möglich. So kann es zum Beispiel für die Reichskrone eine andere Konfiguration geben als für den Reichsapfel.
Das Feld <runAsGoobiScript>
steuert, ob der Import direkt in der Nutzersession oder im Hintergrund als GoobiScript ausgeführt wird. Bei größeren Exceldateien empfielt sich die Nutzung von GoobiScript.
<startRow>
legt fest, welche Zeile die erste Datenzeile der Exceldatei ist. Damit können oberhalb weitere Informationen wie Header, Beschreibungen oder Hilfetexte angegeben werden, die dann vom Import ignoriert werden.
Der Bereich <basex>
legt fest, wo die EAD-Tektonik gespeichert wird. Das Unterelement <database>
enthält den Namen der BaseX-Datenbank, diese muss bereits existieren. In <filename>
wird der Name der EAD-Datei festgelegt. Wenn dieser Name bereits verwendet wird, werden vorhandene Daten überschrieben.
Der root-Ordner der Bilder wird im <images>
Element festgelegt. <metadata>
enthält die zu verwendenden Metadaten. Mittels <doctype>
wird der Strukturtyp definiert und die Felder <title>
, <identifier>
und <description>
enthalten die Namen der Metadaten für Titel, Inventarnummer und Beschreibungstext.
Das Mapping der Metadaten passiert innerhalb des <metadata>
Blocks. Hier wird in <doctype>
festgelegt, welcher Publikationstyp für die einzelnen METS-Dateien verwendet werden soll.
Anschließend kann der zu verwendende Knotentyp definiert werden, falls dieser als Excelspalte vorhanden ist. Dies passiert in <nodetype>
. Wenn dies nicht der Fall ist, kann das Feld leer gelassen werden. Dann wird für alle Knoten, für die ein Vorgang erstellt wurde, file
genutzt, alle anderen Knoten bekommen den Typ folder
.
In <title>
wird die Generierung der Vorgangstitel konfiguiert. Hier gelten die selben Regeln wie in der normalen Anlegemaske. Zusätzlich stehen die beiden Schlüsselworte first
und second
zur Verfügung, um auf den Inhalt der beiden hierarchischen Felder zugreifen zu können.
Anschließend erfolgt die Konfiguration des Metadatenmappings zu EAD und METS/MODS. In <firstField>
wird das erste hierarchische Feld definiert, <secondField>
enthält optional den Inhalt des zweiten Feldes. Wenn nur mit einem Feld gearbeitet wird, kann es mittels enabled="false"
deaktiviert werden. Zusätzliche, fest definierte Spalten lassen sich mittels <additionalField>
konfigurieren. Hier muss im Attribut column
angegeben werden, wie die Überschrift der Spalte lautet. Die anderen Konfigurationsoptionen sind identisch zu den anderen beiden. Das Feld metadataField
definiert das zu verwendende Metadatum innerhalb der METS/MODS Datei. In eadField
wird das entsprechende Feld im EAD-Knoten definiert und level
gibt an, in welchem Bereich sich das Metadatum befindet.
Zusätzlich muss ein Feld als identifier="true"
markiert werden. Der Inhalt dieses Feldes muss für jede Zeile innerhalb des Dokuments eindeutig sein und wird für die id
der EAD-Knoten und das Metadatum NodeId
verwendet. Es dient zur Verknüpfung zwischen EAD-Knoten und Goobi-Vorgang.
Last updated