Navigation and service

Jahresbericht 2009 - Drei Fragen

Drei Fragen an Christa Schöning-Walter zur automatischen Erschließung

Interview mit der Projektverantwortlichen für PETRUS

Frau Schöning-Walter, was bedeutet der Begriff Prozessunterstützende Software im Zusammenhang mit dem Projekt PETRUS für die Deutsche Nationalbibliothek?
Mit der Sammlung von Netzpublikationen wächst der Zugang neuer Veröffentlichungen enorm. Deren formale und inhaltliche Erschließung allein durch unsere Mitarbeiterinnen und Mitarbeiter ist künftig nicht mehr zu schaffen. Daher müssen wir unsere Bearbeitungsprozesse teilweise automatisieren. Im Projekt PETRUS suchen wir maschinelle Verfahren, mit denen wir beispielsweise den fachlichen Kontext einer Publikation automatisch erkennen oder beschreibende Schlagwörter generieren können.

Wie kann die Erschließung von Veröffentlichungen automatisiert werden?
Onlinepublikationen sind automatischen Verfahren gut zugänglich, da sie in elektronischer Form vorliegen. Der Erschließungsprozess beginnt damit, dass wir formale Angaben wie den Titel oder die Liste der Autoren aus den mitgelieferten Daten extrahieren und in unsere Titeldaten übernehmen. Parallel dazu sollen künftig auch die Einträge in die Normdateien automatisch unterstützt werden. Diese Art der Verknüpfung erproben wir zunächst mit der Personennamendatei. Aufgrund der hohen Qualitätsanforderungen werden die Normdatensätze allerdings auch weiterhin von Mitarbeiterinnen und Mitarbeitern nachgepflegt.
Im Zuge der inhaltlichen Erschließung ordnen wir unseren Bestand in Sachgruppen ein. Die Softwaresysteme trainieren wir mit Beispielen, die bereits intellektuell erschlossen sind. Die erlernten Muster werden anschließend für die Klassifizierung neuer Publikationen verwendet. Auf Grundlage der Schlagwortnormdatei mit ihrem definierten Vokabular werden schließlich inhaltsbeschreibende Schlagwörter erzeugt. Auch Begriffe direkt aus dem Text können diese Liste ergänzen. Die Publikationen werden dafür mit linguistischen und statistischen Methoden aufbereitet und ausgewertet.

Können Sie sich vorstellen, dass auch gedruckte Veröffentlichungen eines Tages mit ähnlichen Verfahren bearbeitet werden?
Automatisierte Verfahren benötigen maschinenlesbare Daten. Das können beispielsweise auch Scans von Inhaltsverzeichnissen gedruckter Medien sein. Die Idee der Kataloganreicherung, den Nutzerinnen und Nutzern mehr Informationen zur Verfügung zu stellen, nutzt also doppelt, indem die Digitalisate dann auch intern für maschinelle Erschließungsvorgänge genutzt werden können.

Drei Fragen an Robert Stoldt zur Datenträgermigration

Interview mit dem Projektverantwortlichen für die Datenträgermigration des Deutschen Musikarchivs der Deutschen Nationalbibliothek

Herr Stoldt, warum können die im Deutschen Musikarchiv gesammelten CDs nicht einfach wie Bücher im Magazin dauerhaft aufbewahrt werden?
Die Lebensdauer von CDs, die im Deutschen Musikarchiv seit 1983 gesammelt werden, ist im Gegensatz zu älteren Medien, wie Schallplatten, relativ kurz. Dadurch treten bereits heute verschiedene Probleme auf, von merklichen Informationsverlusten bis hin zur völligen Unabspielbarkeit der CD. Die Gefährdung resultiert weniger aus der Nutzung des Mediums, die Verunreinigungen und Kratzer verursacht, als vielmehr durch unaufhaltbare Prozesse innerhalb des Datenträgers, wie dem chemischen Abbau der reflektierenden Aluminiumschicht. Daher werden alle auf der CD befindlichen Informationen auf Massenspeicher überspielt und in einem Langzeitarchiv für die Zukunft sicher bewahrt.

Wie führt die Informationstechnik der Deutschen Nationalbibliothek dieses Projekt durch?
Nach intensivem Prüfen möglicher Hardware, Dienstleister und Arbeitsabläufe wurde entschieden, das Projekt hausintern durchzuführen, da die Qualitätssicherung vor allem über die Kontrolle zum Zeitpunkt der Migration läuft, also in dem Moment, in dem die Daten von der CD auf den Massenspeicher überführt werden. Diese Lösung ist zudem kostengünstiger und flexibler. Ende 2009 haben wir dann ein sogenanntes Jukebox-System in Betrieb genommen, das 500 CDs pro Tag auslesen kann. Dabei werden alle auf der CD vorhandenen Informationen wie Musik, Multimedia und CD-Text gespeichert. Auftretende Lesefehler werden dokumentiert, so dass auch der Ausgangszustand der CD festgehalten wird.

Wann sind die ersten Ergebnisse für die Nutzerinnen und Nutzer verfügbar?
Die ersten Audiodaten sollen zur Eröffnung des neuen Lesesaals des Deutschen Musikarchivs in Leipzig Ende 2010 aus dem neuen Archivsystem benutzbar sein. Später werden sie auch in weiteren Lesesälen in Frankfurt und Leipzig zur Verfügung stehen. Die gesamte Migration der aktuellen Bestände von immerhin 430.000 CDs wird voraussichtlich bis Ende 2014 dauern, sofern entsprechende Mittel zur Verfügung stehen. Mit zusätzlichen Mitteln kann die Projektdauer verkürzt werden, oder es könnten ergänzend die Begleitmaterialien der CDs digitalisiert werden. Dann wäre ein vollständiges digitales Abbild des Mediums vorhanden.

Last update: 21.02.2012

This Page

Schriftbanner mit Deutscher Nationalbibliothek Leipzig, Frankfurt am Main