Abschlussarbeit

Zurück zur Liste

Die Rolle abstrakter Beschreibungsgrößen in Analyse und Klassifikation von Phonationstypen im Gesang

AutorInnen Bereuter, P.
Jahr 2021
Art der Arbeit Masterarbeit
Themenfeld Audiosignalverarbeitung
Abstract Der menschliche Stimmapparat ist in der Lage klangfarblich unterschiedliche Phonationstypen zu erzeugen. Diese werden als distinkte Stimmqualitäten wie z.B. modal, behaucht oder gepresst wahrgenommen. Im Bereich des professionellen Gesangs werden diese Phonationstypen verwendet, um Emotionen und Gefühle zu transportieren, eine belastende Verwendung ungesunder Stimmqualitäten sollte dabei vermieden werden, um das Risiko von Stimmstörungen zu verringern. Aus diesem Grund sind professionelle Sänger*innen in der Ausbildung nach wie vor auf die Rückmeldung von Expert*innen oder Gesangslehrer*innen angewiesen. Die Fortschritte in der Sprachsignalverarbeitung mit Hinsicht auf Klassifikationsalgorithmen basierend auf überwachtem und unüberwachtem Lernen, stellen dabei eine Palette an Werkzeugen zur Verfügung, welche die Rückmeldung über die gesungenen Phonationstypen erleichtern und vertiefen können. Im Gegensatz zu bereits etablierten Ansätzen welche eine Trennung von Quell- und Filtersignal voraussetzen, werden die neuen auf maschinellem Lernen basierten Ansätze direkt auf die Gesangssignale angewendet. Dies bringt Vorteile für Echtzeit-Implementierungen und für die Grundfrequenzabhängigkeit mit sich. Die Grundlage für die beschriebene Klassifikation mittels maschinellem Lernen ist ein abstraktes Set an Beschreibungsgrößen (engl. feature set), welche die Stimmqualität ausreichend charakterisieren. Das Ziel dieser Arbeit ist es nun, die Rolle abstrakter Beschreibungsgrößen, im Kontext einer auf maschinellem Lernen basierten Stimmqualitätsklassifikation für Gesang, hervorzuheben. Das Hauptaugenmerk liegt dabei auf den Mel-Frequenz-Cepstrum-Koeffizienten (engl. Mel frequency cepstral coefficients, Abk. MFCCs), welche in der Sprachsignalverarbeitung oft verwendet werden. Unterschiedliche Variationen an MFCCs werden analysiert und deren Fähigkeiten bezgl. Stimmqualitätsklassifikation werden evaluiert. Zusätzlich werden die zeitlichen Verläufe, die Grundfrequenzabhängigkeit und der Einfluss von Modulationseffekten, wie z.B. die des Vibratos, auf die MFCCs analysiert. Eine detailliertere Analyse der Verbindung von Vibrato und Phonationstyp bzw. Stimmqualität wird anhand von Methoden wie die des Modulationsleistungsspektrums (Abk. MPS) durchgeführt. Diese soll in etwaigen alternativen Beschreibungsgrößen, basierend auf dem Vibrato resultieren, um in weiterer Folge zur Stimmqualitätsklassifikation herangezogen werden. Abschließend sollen die Ergebnisse dieser Arbeit zeigen, ob die diskutierten Beschreibungsgrößen relevante Beiträge zu einer Echtzeitanalyse-Umgebung liefern können, um professionelle Sänger*innen mit hilfreichen Informationen über deren gesungene Stimmqualität zu versorgen.
BetreuerInnen Sontacchi, A., Brandner, M.