Die Notenhandschriften sind in dem Bibliothekskatalog registriert, aus dem Informationen wie Signatur, Name des Komponisten, Dokumentbeschreibungen und andere Kommentare
in die Datenbank integriert wurden.
Um die in LaTex vorliegenden Bibliotheksdaten auf das Datenbankschema abzubilden, wurde eine XML-Struktur als Zwischenformat gewählt; hier eine
XML-Beispieldatei
Um die LaTex-Daten in die gewünschte XML-Struktur umzuwandeln, wurden Pearl-Scripte verwendet. Das Pearl-Script pre_transform.pl konvertiert die
LaTex-Bibliotheksdaten zu HTML, und das Pearl-Script extract_all.pl die resultierende HTML-Struktur in eine XML-Struktur, dessen Inhalte anschließend in die
Datenbank gespeichert werden konnten.
Die rechte Abbildung zeigt den Workflow der Musikdaten vom Scannen der Original-Notenblätter über die Analyse und Speicherung der Digitalisate bis zum Zugriff
auf die Daten.
Die Daten der Feature Base lagen in einer hierarchischen Form von HTML-Dateien vor, und konnten auch in die Datenbank mittels des entwickelten Kommandozeilen-Tools populateFeatureBaseTable integriert werden. Zur Berechnung eines Ähnlichkeitsmaßes zwischen Handschriften werden Distanzmatrizen verwendet. Diese wurden von den Musikwissenschaftlern in Form von Excel-Dateien erstellt und in die Datenbank übertragen.
Anschließend wurden die Merkmale anhand der Feature-Base für 150 Notenhandschriften extrahiert, und die resultierenden Feature-Vektoren der Handschriften in der Datenbank gespeichert. Es wurden Klassen mit ähnlichen Handschriftmerkmalen erstellt, die genau einen Schreiber repräsentieren. Nun können neue unbekannte Feature-Vektoren klassifiziert werden, indem sie einer dieser Klassen zugeordnet werden. Detailierte Informationen zu diesem Prozess sind unter Klassifiaktion von Handschriften-Vektoren zu finden.