Abschlussarbeit

Zurück zur Liste

Synthese und lineare Prädiktionsanalyse von Gesangssignalen

AutorInnen Bereuter, P., Kraxberger, F.
Jahr 2019
Art der Arbeit Toningenieur-Projekt
Themenfeld Audiosignalverarbeitung
Schlagwörter Akustik, Klanganalyse
Abstract Der Fokus dieser Projektarbeit liegt darauf, gesungene Stimmsignale im Hinblick auf Stimmqualität und Vokals zu kategorisieren. Als Analyseansatz wird das Quelle-Filter-Modell verwendet. Dabei wird die zeitliche Ableitung des Luftstroms durch die Glottis (derivative glottal flow) als Quellsignal angenommen, und der Filter stellt den menschlichen Vokaltrakt dar. Das Quell- oder Anregungssignal enthält Informationen über die Stimmqualität, wohingegen der Vokaltrakt den gesungenen Vokal definiert. Vier verschiedene lineare Prädiktions-Algorithmen werden hinsichtlich ihrer Performance im Hinblick auf die Trennung von Quellsignal und Filter durch inverse Filterung verglichen. Aus dem geschätzten Quellsignal werden zwei auf dem statistischen Parameter der Schiefe (engl. skewness) basierende Low-Level-Features berechnet. Diese Features werden verwendet, um die Stimmqualität grafisch darzustellen. Der geschätzte Vokaltraktfilter wird verwendet, um die ersten beiden Formantfrequenzen (F_1 und F_2) zu berechnen, die anschließend zur Indikation des gesungenen Vokals durch Visualisierung in einem 2D-Vokalraum verwendet werden. Um die Leistung der vier linearen Prädiktionsalgorithmen zu bewerten, wird ein Formantfehlermaß definiert und die Qualität der Stimmqualitätsindikation mit Hilfe einer Support-Vector-Machine (SVM) beurteilt. Für die Bewertung der Algorithmen hinsichtlich des Formantfehlermaßes werden synthetische Signale mit vordefinierten Parametern für verschiedene Stimmqualitäten (modal, behaucht und krächzend) und Vokale (/a/, /e/, /i/, /o/ und /u/) verwendet. Die Auswertung zeigt, dass die Autokorrelationsmethode mit cepstralem Liftering und die Kovarianzmethode am besten abschneiden. Unter Verwendung der SVM werden die beiden Methoden weiter hinsichtlich ihres Clusterings im 2D-Merkmalraum der Stimmqualität verglichen. Diese Analyse zeigt, dass ein Kompromiss zwischen der Grundfrequenzabhängigkeit der linearen Prädiktionsalgorithmen und der Klassifikationsperformance gefunden werden muss. Die Autokorrelationsmethode mit cepstralem Liftering erreicht eine Performance von 90.3 % korrekt klassifizierter Testsamples, während der größtmögliche Grundfrequenzbereich von 70 Hz bis 320 Hz beibehalten wird. Daher wird die Autokorrelationsmethode mit cepstralem Liftering als bestgeeignete Methode angesehen. Die aus der trainierten SVM resultierenden Stimmqualitäts-Klassengrenzen werden in einer 2D-Stimm-qualitätskarte visualisiert. Die Vokale werden grafisch in einer 2D-Vokalkarte dargestellt, die den von F_1 und F_2 aufgespannten Formantfrequenzraum visualisiert. Darüber hinaus wird die Autokorrelationsmethode mit cepstralem Liftering als VST-Plug-In unter Verwendung von C++ und dem JUCE-Framework implementiert. Dies ermöglicht es den aktuell gesungenen Vokal und die Stimmqualität in zwei farbigen 2D-Diagrammen darzustellen. Die zugrundeliegende Idee der VST-Plugin-Implementierung ist es, ein mögliches Design eines Analysetools für Stimmqualität und Vokal für professionelle Sänger zu präsentieren. Abschließend werden die Grenzen des Projekts in Bezug auf die synthetische Modellierung von gesungenen Vokalsignalen, die Vokal- und Grundfrequenzabhängigkeit der vorgeschlagenen linearen Prädiktionsalgorithmen sowie das Optimierungspotenzial der VST-Plugin-Implementierung diskutiert.
URL https://phaidra.kug.ac.at/o:116837
BetreuerInnen Sontacchi, A., Brandner, M.