Abschlussarbeiten
Zurück zur Liste
Abstrakte Beschreibungsgrößen in Analyse und Klassifikation von Phonationstypen im Gesang
Abstract | Der menschliche Stimmapparat ist in der Lage, klangfarblich unterschiedliche Phonationstypen zu erzeugen. Diese werden als distinkte Stimmqualitäten wie z.B. normal, behaucht oder gepresst wahr- genommen. Im Bereich des professionellen Gesangs werden diese Phonationstypen verwendet, um Emotionen zu transportieren. Eine belastende Verwendung ungesunder Stimmqualitäten sollte dabei vermieden werden, um das Risiko von Stimmstörungen zu verringern. Aus diesem Grund sind professionelle Sänger*innen in der Ausbildung nach wie vor auf die Rückmeldung von Expert*innen oder Gesangslehrer*innen angewiesen. Die Fortschritte in der Sprachsignalverarbeitung mit Fokus auf Klassifikationsalgorithmen, basierend auf maschinellem Lernen (ML), stellen Werkzeuge zur Verfügung, welche die Rückmeldung über die gesungenen Phonationstypen erleichtern und vertiefen können. Die Grundlage für die beschriebene Klassifikation mittels ML ist ein abstraktes Set an Beschreibungsgrößen (engl. feature set), welche die Stimmqualität ausreichend charakterisieren. Das Ziel dieser Arbeit ist der Vergleich dieser abstrakten Beschreibungsgrößen, wobei zum einen bereits in der Sprachsignalverarbeitung etablierte Größen und zum anderen neuartige Größen, abgeleitet aus einer modulationsbasierten Signalrepräsentation verarbeitet werden. Die prominentesten Merkmale in der Sprachsignalverarbeitung sind die Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs). Für sie werden unterschiedliche Varianten mittels Variation der Filterbänke, Modifikation der Filterbank-Mittenfrequenzen durch Vokaltraktlängennormalisierung und -pertubation sowie durch cepstrales Liftering der Koeffizienten erstellt. Die Ergebnisse der Stimmqualitätsklassifikation dieser MFCC-Varianten werden verglichen, und es zeigt sich, dass die mit einer invertierten Mel-Filterbank erstellte MFCC-Variante die besten Ergebnisse erzielt. Die vorgeschlagenen neuartigen Beschreibungsgrößen werden aus dem sogenannten Modulationsleistungsspektrum (MPS) abgeleitet, das mit einer 2D-Fourier-Transformation des logarithmierten Spektrogramms der Gesangssignale berechnet wird. Die unterschiedlichen Beschreibungsgrößen werden unter Verwendung eines Plus-L Minus-R Algorithmus (L-R Auswahl) weiter analysiert. Mit Hilfe der L-R Auswahl wird die Stimmqualitätsklassifikation der MFCC-Variante, der MPS-basierten Größen sowie eines kombinierten Satzes beider Größen verglichen. Die Analyse zeigt, dass das MPS-basierte Feature-Set die MFCCs übertrifft und daher durchaus als Alternative in Bezug auf die Stimmqualitätsklassifikation angesehen werden kann. Alle in dieser Arbeit durchgeführten Klassifikationsaufgaben verwenden Support Vector Machines (SVMs) und eine neue Datenbank, die am Institut für Elektronische Musik und Akustik (IEM) in Graz erstellt wurde. Die Datenbank umfasst 1140 Aufnahmen, die mit 10 professionellen Sänger*innen für drei instruierte Stimmqualitäten (normal, behaucht und gepresst) aufgenommen wurden. Die Aufnahmen wurden in einem Hörversuch hinsichtlich der wahrgenommenen Stimmqualität bewertet. Dadurch können zwei Sets an Stimmqualitätslabels, eines basierend auf den Anweisungen, die die Sänger*innen während der Aufnahme erhielten (Instruktionslabels), und das andere basierend auf den Ergebnissen des Hörversuchs (Hörversuchslabels) verwendet werden. Durch einen Labelvergleich kann der gesamte Datensatz reduziert werden, um in Bezug auf die Phonationstypen aussagekräftigere Daten zu erhalten und es kann die Stimmqualitätsbewertung aus dem Hörversuch mit der ML-basierten Klassifikation verglichen werden. Es zeigt sich, dass mittels ML-basierten Klassifikation bessere Ergebnisse mit den Instruktionslabels erzielt werden und dass diese im Vergleich zu den Ergebnissen des zuvor durchgeführten Hörversuchs einen höheren Prozentsatz an korrekten Klassifizierungen liefert. |
Autor*innen | |
Betreuer*innen | |
Jahr | 2022 |
Art der Arbeit | Masterarbeit |
URL | https://phaidra.kug.ac.at/o:125985 |
Anmerkung | Audiosignalverarbeitung |
Status | abgeschlossen |
Keywords | Akustik,Gender Differences,Klangfarbe,Machine Learning,Music Information Retrieval,Musikalische Akustik,Signalverarbeitung,Sprachverarbeitung |