GeoNames Annotierung
Goobi Step Plugin für die Annotation automatisch vorhandener "location" NER Tags in ALTO Dateien mit Geonames URLs.

Einführung

Dieses Step Plugin für Goobi workflow annotiert automatisch vorhandene "location" NER Tags in ALTO Dateien mit Geonames URLs. Dabei wird immer der erste Treffer der Suchanfrage genommen. Es ist also empfehlenswert, die Ergebnisse noch einmal zu überprüfen und zu korrigieren.
Details
Text
Identifier
intranda_step_geonamesautoannotator
Lizenz
GPL 2.0 oder neuer
Kompatibilität
Goobi workflow 2022.03
Dokumentationsdatum
25.03.2022

Arbeitsweise des Plugins

Das Plugin durchsucht für alle location NER Tags die Geonames-Datenbank. Sollten ein oder mehrere Suchtreffer zurückgegeben werden, wird der erste Suchtreffer in der Liste in das ALTO übernommen.

Installation

Das Plugin besteht aus folgenden Dateien:
1
goobi_plugin_step_geonamesautoannotator.jar
2
plugin_intranda_step_geonamesautoannotator.xml
Copied!
Die Datei goobi_plugin_step_geonamesautoannotator.jar muss in dem richtigen Verzeichnis installiert werden, so dass diese nach der Installation an folgendem Pfad vorliegt:
1
/opt/digiverso/goobi/plugins/step/plugin_intranda_step_geonamesautoannotator.jar
Copied!
Daneben gibt es eine Konfigurationsdatei, die an folgender Stelle liegen muss:
1
/opt/digiverso/goobi/config/plugin_intranda_step_geonamesautoannotator.xml
Copied!

Konfiguration

Die Konfiguration des Plugins erfolgt über die Konfigurationsdatei plugin_intranda_step_geonamesautoannotator.xml und kann im laufenden Betrieb angepasst werden. Im folgenden ist eine beispielhafte Konfigurationsdatei aufgeführt:
1
<?xml version="1.0" encoding="UTF-8"?>
2
<config_plugin>
3
<!--
4
order of configuration is:
5
1.) project name and step name matches
6
2.) step name matches and project is *
7
3.) project name matches and step name is *
8
4.) project name and step name are *
9
-->
10
11
<config>
12
<!-- which projects to use for (can be more then one, otherwise use *) -->
13
<project>*</project>
14
<step>*</step>
15
16
<!-- geonames account -->
17
<geonamesAccount>testuser</geonamesAccount>
18
<!-- geonames API URL - if you have a paid plan, use http://ws.geonames.net here -->
19
<geonamesApiUrl>http://api.geonames.org</geonamesApiUrl>
20
</config>
21
22
</config_plugin>
Copied!
Parameter
Erläuterung
project
Dieser Parameter legt fest, für welches Projekt der aktuelle Block <config> gelten soll. Verwendet wird hierbei der Name des Projektes. Dieser Parameter kann mehrfach pro <config> Block vorkommen.
step
Dieser Parameter steuert, für welche Arbeitsschritte der Block <config> gelten soll. Verwendet wird hier der Name des Arbeitsschritts. Dieser Parameter kann mehrfach pro <config> Block vorkommen.
geonamesAccount
Mit diesem Parameter wird der Account-Name für den GeoNames-Zugriff definiert.
geonamesApiUrl
Hier wird die URL für den Zugriff auf die API von GeoNames festgelegt.
Es empfielt sich für den Betrieb des Plugins eine höhere Quota bei geonames einzukaufen. Wenn dies getan wurde, muss die geonamesApiUrl auf http://ws.geonames.net umgestellt werden.

Integration des Plugins in den Workflow

Dieses Plugin wird in den Workflow so integriert, dass es automatisch ausgeführt wird. Eine manuelle Interaktion mit dem Plugin ist nicht notwendig. Zur Verwendung innerhalb eines Arbeitsschrittes des Workflows sollte es wie im nachfolgenden Screenshot konfiguriert werden.
Integration des Plugins in den Workflow