Abschlussarbeit

Zurück zur Liste

Investigations on a Robust Feature Set for Classification of Speech under Stress

AutorInnen Jany-Luig, J.
Jahr 2009
Art der Arbeit Diplomarbeit
Themenfeld Psychoakustik
Schlagwörter Signalverarbeitung, Sprachverarbeitung
Abstract Ziel dieser Diplomarbeit ist die Auswahl und Beurteilung geeigneter Sprachmerkmale(Features) und daraus abgeleiteter Feature Characteristics zur automatischen Erkennung und Einteilung von gesprochener Sprache in verschiedenen emotionalen Zuständen und bei unterschiedlicher psychischer Belastung. Die Ergebnisse sollen für unterschiedliche Arten von Stress anwendbar und unabhängig von der gesprochenen Sprache sein. Zu diesem Zweck werden Sprachdaten einer englischen Datenbank mit Sprache unter Stressbedingungen (SUSAS), einer deutschen mit emotionaler Sprache (Emo-DB) sowie eines englischen Sprachkorpus mit Fluglotsen-Funk- verkehr analysiert. Grundlegende Features wie Tonhöhe, Intensität, Frequenzen und Bandbreiten der ersten bei- den Formanten, Harmonizität, MFCCs und Eigenschaften der glottalen Anregung werden mit Hilfe der Sprachanalyse-Software Praat extrahiert. Anschließend wird eine Phonemgrenzenerkennung und -klassifizierung durchgeführt, was Voraussetzung für die Berechnung der Phonemdauer sowie eines auf dem Teager Energy Operator (TEO) basierenden Features ist. Diese Berechnungen werden – wie auch die weiteren Schritte – in MATLAB implementiert. Das Differenzierungspotential der einzelnen Merkmale wird mit Hilfe geeigneter statistischer Tests bestimmt, woraus sich eine Rangliste der Features für eine Auswahl zweier emotionaler Klassen ergibt. Aus dieser wird iterativ diejenige Kombination von Features ermittelt, die die besten Ergebnisse bei der Klassifikation mit einer überwachten Methode (k-nearest neighbours) liefert. In einem Vergleichsprüfungsverfahren wird so der Prozentsatz der korrekt zugeordneten emotionalen Klassen berechnet, der das Ergebnis darstellt. Ein “allgemeines” Set von Merk- malen wird schließlich durch Bildung der Schnittmenge aus den Einzelergebnissen gewonnen. Bei der Analyse gespielter Emotionen werden unter Verwendung der jeweils besten Feature- Sets Ergebnisse von bis zu 98% korrekter Erkennungsrate (CCR) erzielt; bei Verwendung des allgemeinen Sets verschlechtert sich die CCR um maximal 12%. Die Erkennung von Arbeitsbelastung (Workload) erreicht bis zu 70% CCR, eine vergleichbare Abnahme von 12% bei Verwendung des allgemeinen Sets bedeutet hier im Endeffekt jedoch eher mäßige Erkennungsraten um etwa 60% CCR.
URL http://phaidra.kug.ac.at/o:11118
BetreuerInnen Sontacchi, A.