Spartenübergreifende Nutzung der Gemeinsamen Normdatei (GND) am Beispiel des Projekts „Institutionenübergreifende Integration von Normdaten (IN2N)“
Zusammenfassung:
Die Gemeinsame Normdatei (GND) wird im deutschsprachigen Bibliothekswesen als Normdatei sowohl zur formalen als auch inhaltlichen Erschließung genutzt. Im Projekt IN2N (Institutionenübergreifende Integration von Normdaten) sollte die Einbindung eines nichtbibliothekarischen Partners erprobt werden, um damit beispielhaft die Nutzung dieser Normdatei für andere Kultureinrichtungen zu untersuchen. Das Projekt hat sich mit Inhalten, Formaten, Schnittstellen und Redaktionssystemen auseinandergesetzt und eine Kooperation ermöglicht, die wegweisend für andere Kultureinrichtungen sein kann.
Summary:
The Integrated Authority File (GND) is used in the German library system as an authority file for both descriptive and subject cataloguing. Project IN2N (Institutionenübergreifende Integration von Normdaten – Cross-institution integration of authority data) was set up for the purpose of testing the inclusion of a non-library partner into the system in order to investigate use of the authority file for other cultural institutions. The project covered content, formats, interfaces and authoring systems with the aim of facilitating a partnership that could lead the way for other cultural institutions.
1. Ziel des Projekts
Das Projekt „Institutionenübergreifende Integration von Normdaten (IN2N)“ war ein von der Deutschen Forschungsgemeinschaft gefördertes Vorhaben mit einer Laufzeit vom 1. Dezember 2012 bis zum 28. Februar 2014. Partner in dem Projekt waren die Deutsche Nationalbibliothek und das Deutsche Filminstitut.
Ziel des Projekts war die Erprobung der domänenübergreifenden Normdatenpflege im eigenen System. Im bibliothekarischen Bereich ist die Arbeit in der Gemeinsamen Normdatei (GND) entweder mittels eines PICA-Clients (WinIBW) oder über die sogenannte Online-Normschnittstelle zu einer Aleph-Anwendung möglich: Einzige Alternative dazu ist derzeit die Nutzung einer SRU-Schnittstelle (Search / Retrieve via URL). Diese bibliothekarischen Schnittstellen ermöglichen die Arbeit in der Normdatei in vertrauter Umgebung. Mit dem Projekt IN2N sollte erstmals erprobt werden, ob ein gänzlich anders strukturiertes Redaktionssystem direkt an die GND angebunden werden kann. Die Kooperation soll als Modell für nicht-bibliothekarische Einrichtungen dienen, die Erschließung mithilfe von Normdaten betreiben und von der in der GND bereits geleisteten Arbeit profitieren können.
2. Beschreibung der Datenbanken
Die beiden Datenbanken, um die es im Projekt ging, unterscheiden sich stark: Die GND umfasst mehr als 11 Mio. Datensätze, davon 3,8 Mio. Personendatensätze. Diese sind mit anderen Normdatensätzen verlinkt und werden im deutschsprachigen Raum für die Erschließung v.a. in Bibliotheken genutzt. Die Datensätze für Personen enthalten identifizierende Angaben wie Geburtsjahr, Berufe oder Tätigkeiten, Orte, die in Zusammenhang mit der Person stehen (Geburtsort, Wirkungsort, Sterbeort), ggf. Institutionen, in denen die Person tätig war, Systematik-Nummern der GND-Systematik und einen Ländercode nach ISO 3166. Bei lebenden Personen werden seit einiger Zeit aus Datenschutzgründen keine exakten Geburtsdaten mehr erfasst.
Der Normdatenbestand des Deutschen Filminstituts (DIF) umfasst ca. 188.000 Personen, Filmschaffende im weiteren Sinn. Dazu gehören nicht nur Schauspieler und Regisseure, sondern auch Drehbuchautoren, Kameraleute, Kostümbildner, Toningenieure etc. Die Normdatensätze des DIF sind in der Datenbank filmportal.de1 – der zentralen Internet-Plattform zum deutschen Film – enthalten und werden zur Erschließung von Filmen genutzt; Personen sind auf einer entsprechenden Unterseite zu finden.2 Es gibt ausschließlich Verlinkungen zu den Filmen, nicht zu anderen Personen. Zu jeder Person gibt es einige kurze identifizierende Angaben wie exakte Lebensdaten, Geburtsort und Berufe. Letztere sind immer im Zusammenhang mit den Filmen zu sehen. Daneben ist bei vielen Personen eine ausführliche textliche Biografie enthalten und alle Filme sind mit Nennung der Funktion aufgezählt, in der die Person mitgewirkt hat.
3. Herausforderungen im Projekt
Der Fragenkatalog, der im Projekt beantwortet werden musste, war umfangreich und erstreckt sich sowohl auf technische als auch auf inhaltliche Bereiche.
3.1. Regelwerke
Die der Erschließung und somit Bildung von Normdatensätzen zugrunde liegenden Regeln waren in der GND und im Filmportal unterschiedlich.
Die Datensätze der GND werden seit 2014 nach den internationalen Regeln „Resource Description and Access“ (RDA) gebildet. Davor gab es für Personen zwar schon Datensätze, die gemeinsam von Formal- und Sacherschließung genutzt wurden. Allerdings waren die Ansetzungsformen aufgrund der differierenden Regelwerke für Formalerschließung (Regeln für die alphabetische Katalogisierung an wissenschaftlichen Bibliotheken, RAK-WB) und Sacherschließung (Regeln für den Schlagwortkatalog, RSWK) unterschiedlich. Die unterschiedlichen Ansetzungsformen waren in zwei verschiedenen Feldern desselben Datensatzes untergebracht und wurden je nach Verwendung herangezogen. Beim Übergang der Personennormdatei (PND) zur GND wurden 2012 Übergangsregeln beschlossen, die sich an dem damaligen Entwurf der RDA orientierten und die für die bibliothekarische Erschließung insgesamt genutzt wurden. Der Übergang zu RDA machte Änderungen erforderlich, die aber im Bereich der modernen Personennamen marginal waren. Größere Veränderungen gab es nur bei Pseudonymen, wo nach RDA zwischen verschiedenen Identitäten unterschieden wird und zwei oder mehr Datensätze angelegt werden müssen.
Die Regeln für das Filmportal basieren auf dem Standard „Encoded Archival Context - Corporate Bodies, Persons and Families“ (EAC CPF) und sind den Bedürfnissen des Deutschen Filminstituts angepasst. Personen werden nur einmal erfasst, Pseudonyme oder wirkliche Namen als abweichende Namen gekennzeichnet.
3.2. Datenformate
Zunächst musste die Frage nach einem gemeinsamen Transportformat geklärt werden.
Die GND wird in der DNB geführt; für den Datentausch wird üblicherweise der im bibliothekarischen Bereich stark verbreitete Standard MARC21 der Library of Congress genutzt. Für die Nutzung als Linked Data liegen die Daten im Format RDF/XML vor.
Die Daten des Filmportals liegen im Standard EAC-CPF/XML vor, einem Standard für die Codierung von Metadaten aus dem Archivbereich.
Es wurde untersucht, ob sich dieses Format als Transportformat eignet, da dies Vorteile für künftige Partner aus dem Archivbereich gebracht hätte. Voraussetzung dafür wäre aber gewesen, dass zumindest im Archivbereich Interesse an dem Standard als Austauschformat bestanden hätte. Das Ergebnis war, dass sich derzeit zu wenige Einrichtungen mit diesem Standard als Austauschformat beschäftigen. Deshalb wurde letztendlich als gemeinsames Austauschformat RDF/XML gewählt.
3.3. Redaktion
Die Datensätze der GND werden deutschlandweit sowie in der deutschsprachigen Schweiz und in Österreich für die bibliothekarische Erschließung genutzt und von fast allen wissenschaftlichen Bibliotheken (und einigen anderen Institutionen) angelegt, aufgearbeitet und korrigiert. Dazu gibt es eine Redaktionsanleitung, die je nach Level der Einrichtung Korrekturen erlaubt (so sind die Level 1–3 bibliothekarischen Einrichtungen wie z.B. Verbundredaktion oder einzelnen Bibliotheken vorbehalten, andere Institution haben dann Level 4 oder 5); Ergänzungen können i.d.R. von allen aktiven GND-Teilnehmern vorgenommen werden. Der Austausch der neuen oder aktualisierten Daten erfolgt über OAI-PMH (Open Archives Initiative, Protocol for Metadata Harvesting), wobei immer die vollständigen Datensätze ausgetauscht werden. Dadurch können alle Teilnehmer „in Echtzeit“ mit aktuellen Daten arbeiten. Es gibt Zuständigkeiten für einzelne Bereiche (wie moderne deutsche Namen, Namen des Mittelalters etc.) und Fragen der Bearbeiter werden direkt an die Datensätze angehängt, wenn eine Korrektur oder Ergänzung nicht selbst durchgeführt werden kann.
Im Filmportal werden die Datensätze nur in einer Institution (DIF) teilweise von Redakteuren, teilweise von Nichtfachleuten nach Vorgabe erfasst. Vor der Kooperation mit der GND erfolgte kein aktiver Datentausch mit einer anderen Normdatei.
3.4. Umfang der Datensätze
Eine der Herausforderungen war der unterschiedliche Umfang der Datensätze. Wie oben beschrieben, umfassen die Datensätze der GND mehr Facetten als die des Filmportals und zusätzlich Verlinkungen zu anderen Datensätzen. Die Normdaten des Filmportals benötigen etliche der Informationen der GND-Sätze nicht, können sie aber bei einer Einspielung oder Eingabe in die GND auch nicht liefern. Bei Neueingaben kann das Problem der aus Sicht der GND fehlenden Felder durch technische Vorkehrungen umgangen werden, indem der Level der Datensätze so festgelegt wurde, dass bestimmte Prüfungen auf Besetzung von Feldern nicht erfolgen. Bei Korrekturen an den Datensätzen wird deshalb eine Schnittstelle genutzt, die feldweise Informationen überträgt und nicht – wie z.B. bei der sonst genutzten OAI-Schnittstelle – den gesamten Datensatz überschreibt.
Ein Problem war auch die geografische Zuordnung der Personen, die in der GND durch den Ländercode ausgedrückt wird. Dieser Ländercode wird, wenn möglich, nach der Staatsangehörigkeit vergeben, alternativ nach dem Wirkungsort, wobei z.B. bei einer Veröffentlichung in Deutschland in deutscher Sprache angenommen wird, dass die betreffende Person in Deutschland lebt und der entsprechende Code vergeben wird. Die geografische Zuordnung der Personen im Filmportal ist von den Filmen abhängig, in denen die Personen mitgewirkt haben. Eine automatische Übernahme in die GND war deshalb nicht möglich.
Berufe werden in der GND i.d.R. nach einer definierten Liste als Berufsbezeichnungen vergeben (z.B. Schauspieler, Regisseur etc.). Im Filmportal gibt es zur Definition der Personen eine Mischung aus Berufsbezeichnungen (Darsteller, Produzent) und Funktionen (Regie, Drehbuch). Diese wurden auf die Berufsbezeichnungen der GND gemappt und konnten so nach Ergänzung fehlender Berufe beim Einspielen automatisch umgesetzt werden.
Die Namensstruktur ist in der GND und im Filmportal unterschiedlich: In der GND werden Namen in invertierter Form erfasst (wobei intern Nachname und Vorname in eigenen Unterfeldern stehen) und Präfixe, Adelstitel oder andere Namensbestandteile in separate Unterfelder geschrieben. Im Filmportal werden Namen in der Reihenfolge „Vorname Nachname“ erfasst und Titel etc. nicht getrennt. Für die Einspielung der Daten war deshalb eine Definition der Namensbestandteile notwendig, um sie überhaupt vergleichen zu können.
Vorgehen beim initialen Datenabgleich und Einspielung
Um die Daten miteinander vergleichen und sie zusammenspielen zu können, waren folgende Schritte notwendig:
Für Namen:
• Identifikation von Namenstypen
• Zerlegung in Bestandteile
• Zuordnung von GND- und Filmportal-Bestandteilen
• Erstellung kontrollierter Listen für akademische Grade und Adelstitel
Für Daten:
• Syntaxanpassung
• Festlegungen zum Umgang mit ungenauen Angaben
Für Orte:
• Zuordnung der Zeichenketten des Filmportals zu verlinkten GND-Orten über vorhandene GND-Filmportal-Paare
• Unscharfer Vergleich von Filmportal- und GND-Zeichenketten
Für Berufe:
• Konkordanzerstellung mit semantischer Übereinstimmung
Geschlecht:
• Wertanpassung (der unterschiedlichen Bezeichnungen; daraus folgend ggf. Änderung der Berufsbezeichnung)
Danach wurden die Bedingungen für die automatische Zusammenführung festgelegt. Die Bildung und Gewichtung der Charakteristika erfolgte intellektuell, wobei die Fallbeschreibungen jeweils iterativ verbessert wurden. Es wurde auch unter Einbeziehung externer Quellen (Wikipedia, VIAF) versucht, die Quellenlage auf einer der beiden Seiten (GND oder Filmportal) zu verbessern; das konnte aber aus Zeitgründen nicht weiter verfolgt werden.
Zum Schluss wurden drei Gruppen gebildet und ihnen die Datensätze nach Festlegung der entsprechenden Match-Scores zugeordnet:
1. Eindeutiger Treffer zwischen Filmportal- und GND-Datensatz
2. Mehrere mögliche Treffer in der GND
3. Kein Treffer in der GND.
Die Gruppen 1 und 3 konnten dann eingespielt werden, wobei für Datensätze der Gruppe 1 jeweils einzelne Felder zu vorhandenen GND-Datensätzen ergänzt wurden. Datensätze, die der Gruppe 3 zugeordnet waren, wurden direkt eingespielt. Für beide Gruppen wurde die GND-Nummer der betreffenden Datensätze an das DIF zurückgemeldet.
Datensätze der Gruppe 2 verblieben mit Angabe des Score-Werts in einer separaten Datenbank und können von Redakteuren des DIF intellektuell einer der beiden anderen Gruppen zugeordnet werden, wobei die Angabe des Score-Werts bereits einen Hinweis auf die Wahrscheinlichkeit der Übereinstimmung mit einem der potentiellen GND-Datensätze gibt.
Es konnten insgesamt 20.852 Personen aus dem Filmportal mit vorhandenen Datensätzen der GND zusammengespielt und 124.003 Personen als neue Normdatensätze in die GND eingespielt werden. Ca. 41.000 Datensätze waren Kandidaten der Gruppe 2 und verblieben in der separaten Datenbank.
4. Konzeption und Implementierung einer GND-Update-Schnittstelle
Da das DIF (wie auch vermutlich die zukünftigen Partner) keinen GND-Datenspiegel – wie im klassischen GND-Austauschverfahren – vorhält, musste ein Mechanismus für die Mitteilung von Änderungen an GND-Datensätzen etabliert und eine Schnittstelle zur Übernahme dieser auf Nachfrage (Pull-Verfahren) angeboten werden. Die Suche aus dem bzw. der Datenbezug durch das Filmportal-Redaktionssystem wird über SRU (Search and Retrieve via URL), eine bereits für die GND existierende Schnittstelle, realisiert. Über die Schnittstelle stehen Datenformate wie MARC21, aber auch GND/RDF bereit. SRU bietet einen einfachen Mechanismus für die inhaltsbasierte Suche (z.B. nach dem Namen einer Person) in der GND, was bei Verzicht von Datenspiegeln zwingend notwendig ist. Für das IN2N-Projekt wurden für den Datenbezug über SRU Optimierungsmöglichkeiten bei der Indexbereitstellung ermittelt, welche seitens der DNB aufgegriffen und umgesetzt wurden. Dies führt bei Suchanfragen auf der GND zu einem gezielteren Ergebnis-Set als zuvor existierende Anfragemöglichkeiten.
Um die ausgelieferten Datenmengen in einem angemessenen Rahmen (kleines Datenvolumen) zu halten, war es notwendig, Datensets zuzuschneiden. So wurde als erster Schritt im Falle des Filmportals ein Datenset definiert, welches aus den 3,8 Millionen individualisierten GND-Personen lediglich die im Filmportal vorhandenen ca. 188.000 Personen berücksichtigt. Der zweite Schritt – die Selektion der tatsächlich geänderten Inhalte bzw. die Relevanz dieser für die Filmportal-Datenbank – wird nach Bezug der Daten im Datenhaltungssystem des Filmportals vorgenommen. Es werden also nur Informationen ausgetauscht, die für das Filmportal wichtig sind. Nicht alle Ergänzungen oder Korrekturen in der GND sind für das Filmportal wichtig; es werden deshalb nicht alle Änderungen aufgenommen.
Für den schreibenden Zugriff wurde eine neue REST-Schnittstelle (Representational State Transfer) für Updates etabliert. GND-Ressourcen werden mittels einer HTTP-basierten Anfrage angesprochen und durch eine Operation geändert bzw. – falls noch nicht existent – neu angelegt. Auf Feldebene bietet die Schnittstelle drei Operationen für die Datenmanipulation an: hinzufügen (add), ändern (replace) und löschen (remove). Die Änderungsoperationen für einen bestimmten Datensatz werden in einem JSON-Request (das ist eine Abfragemethode auf der Grundlage von Java Script Object Notation) eingebettet und mit der HTTP-Anfrage mitgesandt. Für Personen steht bislang ein Set von ungefähr 25 Datenelementen zur Verfügung, die zur Datensatzanpassung einsetzbar sind. Die Konzeption der Update-Schnittstelle sieht zukünftig einen Einsatz beliebiger Datenformate und Ontologien für Änderungsoperationen an allen im bibliothekarischen Bestand existenten Daten vor. Die entscheidende Innovation dieser neuen Update-Schnittstelle besteht darin, lediglich Differenzen zum aktuellen Datensatz zu übermitteln und nicht komplette Datensätze zu harvesten, anschließend zu manipulieren und schließlich in die GND zurückzuschreiben.
Die Nutzung der neuen Update-Schnittstelle verlangt wie die bisherige GND-Kooperationspraxis eine Registrierung der Partner. Durch Kooperationsprofile innerhalb des zentralen Systems soll festgelegt werden, welche Partner welche Operationen auf welchen Elementen durchführen dürfen. Während der Umsetzung im IN2N-Projekt musste festgestellt werden, dass die nötige Granularität mit den zur Verfügung stehenden Mitteln nicht zu gewährleisten war. Seitens der DNB werden mit der Einbeziehung weiterer Partner diesbezüglich Überarbeitungen vorzunehmen sein.
Während aus Zeitgründen für die initiale Einspielung das Format MARC21-XML verwendet wurde, kann für den laufenden Betrieb GND/RDF verwendet werden, denn die Normdatenkollaboration auf der Basis von Linked Data war eines der Ziele des Projekts. Datenkonversionen werden DNB-seitig für die Datenbereitstellung von Pica+ (Internformat) in GND/RDF und für die Integration von Änderungsanfragen von GND/RDF nach Pica+ vorgenommen. Im Filmportal werden die GND/RDF-Daten beim Import auf die interne Datenbankstruktur abgebildet. Beim Senden von Update-Requests werden die Änderungsanfragen aus der internen Datenbank in die JSON-Update-Syntax inkl. der GND/RDF-Elemente übersetzt.
5. Laufender Betrieb
Die Arbeit im Redaktionssystem des Filmportals hat sich durch die Anbindung an die GND etwas verändert. Wenn ein für die Erschließung benötigter Personendatensatz nicht in der Datei vorhanden ist und neu erfasst werden muss, ist automatisch eine Suche in der GND der Neueingabe vorgeschaltet. Falls dort ein entsprechender Datensatz gefunden wird, kann er per Knopfdruck in das eigene Redaktionssystem übernommen werden.
Bei der Suche in der GND wird dem Redakteur des Filmportals nicht nur der bevorzugte Name als Treffer angeboten, sondern dieser durch Lebens- oder Wirkungsdaten erweitert, um eine schnellere Identifikation innerhalb der doch beträchtlich größeren Datenmenge zu erreichen.
Bei Datensätzen, die sowohl im Filmportal als auch in der GND vorhanden sind, wurde zur Erleichterung der redaktionellen Arbeit zusätzlich zu der Maske des Filmportals eine Datensicht auf den GND-Datensatz ermöglicht. Daneben wurden die bisher als Freitext erfassten Tätigkeiten durch ein festgelegtes Vokabular ersetzt. Jede nun im Filmportal festgelegte Tätigkeitsansetzung hat eine semantische Entsprechung, die als GND-URI referenzierbar ist. Auch wird bei der Übernahme von neuen Personen aus der GND die dort verwendete Berufsbezeichnung in eine im Filmportal verwendete Tätigkeit umgesetzt.
6. Bestandsübergreifende Suche
Der Projektantrag sah personenbezogene Suchanfragen über das DNB-Portal vor, die auch dann zum Erfolg führen sollte, wenn sie sich auf Datenelemente beziehen, die nur im Filmportal vorgehalten werden und umgekehrt. Vor allem sollte die Nutzbarkeit der durch die Partner bereitgestellten RDF-Repräsentation auf dieses Anwendungsziel hin untersucht werden.
Betrachtungen zu diesem Thema haben gezeigt, dass die Umsetzung einer dezentral organisierten Suche und die darauf aufbauende Präsentation für Endnutzer weitreichende Untersuchungen bzgl. der Usability verlangen, was im Rahmen des IN2N-Projektes aus Umfangsgründen nicht zu leisten war. Der Aufbau der technischen Infrastruktur für den Datenaustausch genoss im Projekt höhere Priorität.
Die bestandsübergreifende Suche steht im Portal der DNB sowie auf allen GND-Spiegeln zur Verfügung, da die charakteristischen Attribute einer Filmportal-Person in die GND integriert wurden. Benutzer des DNB-Portals können durch die Angabe des externen Verweises auf Filmportal.de alle zusätzlichen Informationen bequem erreichen und somit effizient recherchieren. Eine weitere separate bestandsübergreifende Suchmöglichkeit für Nutzer im Web war somit weder notwendig noch sinnvoll.
Das Projekt IN2N sollte untersuchen, ob eine spartenübergreifende gemeinsame Nutzung von Normdaten möglich ist. Die dabei untersuchten Probleme sind zum größten Teil gelöst worden, aber es ist auch klar geworden, dass die im deutschsprachigen Bibliothekswesen übliche Kooperation (die sowohl die Regeln zur Erschließung als auch den Datenaustausch betrifft) außerhalb dieser Domäne nicht vorausgesetzt werden kann. Das bedeutet, dass eine Kooperation mit vielen Institutionen aus anderen Kulturbereichen jeweils Einzelabsprachen und Verhandlungen notwendig macht. Systeme müssen so aufgebaut werden, dass sie möglichst variabel einsetzbar sind und Schnittstellen so offen wie möglich konzipiert werden. Dafür hat die Arbeit im Projekt IN2N wertvolle Vorarbeit geleistet.