Datenquellen


Notenhandschriften der Rostocker Universitätsbibliothek

Die Rostocker Universitätsbibliothek hat dem Projekt enote-History ihre Sammlung von Notenhandschriften zur Verfügung gestellt. Zuerst wurde eine Testmenge von ungefähr 4000 Notenblätter als TIFF-Format mit 300 dpi und 24 bit Farbtiefe eingescannt. Einerseits wurden die Digitalisate mit hoher Qualität gespeichert, um die Extraktion von visuellen Charakteristiken bei den Bildbearbeitungsalgorithmen zu gewährleisten. Andererseits wurde auch ein komprimiertes Bild gespeichert, welches zur Ansicht und als Navigationhilfe in Form eines Thumbnails für die Nutzerschnittstelle verwendet wird.

Datenimport aus dem Bibliothekskatalog

Die Notenhandschriften sind in dem Bibliothekskatalog registriert, aus dem Informationen wie Signatur, Name des Komponisten, Dokumentbeschreibungen und andere Kommentare in die Datenbank integriert wurden. Um die in LaTex vorliegenden Bibliotheksdaten auf das Datenbankschema abzubilden, wurde eine XML-Struktur als Zwischenformat gewählt; hier eine XML-Beispieldatei Um die LaTex-Daten in die gewünschte XML-Struktur umzuwandeln, wurden Pearl-Scripte verwendet. Das Pearl-Script pre_transform.pl konvertiert die LaTex-Bibliotheksdaten zu HTML, und das Pearl-Script extract_all.pl die resultierende HTML-Struktur in eine XML-Struktur, dessen Inhalte anschließend in die Datenbank gespeichert werden konnten.
Die rechte Abbildung zeigt den Workflow der Musikdaten vom Scannen der Original-Notenblätter über die Analyse und Speicherung der Digitalisate bis zum Zugriff auf die Daten.

Daten der Feature Base

Die Daten der Feature Base lagen in einer hierarchischen Form von HTML-Dateien vor, und konnten auch in die Datenbank mittels des entwickelten Kommandozeilen-Tools populateFeatureBaseTable integriert werden. Zur Berechnung eines Ähnlichkeitsmaßes zwischen Handschriften werden Distanzmatrizen verwendet. Diese wurden von den Musikwissenschaftlern in Form von Excel-Dateien erstellt und in die Datenbank übertragen.

Klassifikation der Notenhandschriften

Anschließend wurden die Merkmale anhand der Feature-Base für 150 Notenhandschriften extrahiert, und die resultierenden Feature-Vektoren der Handschriften in der Datenbank gespeichert. Es wurden Klassen mit ähnlichen Handschriftmerkmalen erstellt, die genau einen Schreiber repräsentieren. Nun können neue unbekannte Feature-Vektoren klassifiziert werden, indem sie einer dieser Klassen zugeordnet werden. Detailierte Informationen zu diesem Prozess sind unter Klassifiaktion von Handschriften-Vektoren zu finden.