Abschlussarbeit

Zurück zur Liste

Speaker Interpolation Based Data Augmentation for Automatic Speech Recognition

AutorInnen Kerle, L.
Jahr 2022
Art der Arbeit Masterarbeit
Themenfeld Audiosignalverarbeitung
Abstract Die stetige Weiterentwicklung von Spracherkennungssystemen in den letzten Jahren hat für eine breite Anwendung dieser in den verschiedensten Bereichen gesorgt. Dieser Erfolg ist vor allem auf die Integration hochentwickelter Algorithmen in die automatische Spracherkennung (ASR) mittels neuronaler Netzwerke (DNN) zurückzuführen, die stark auf ihre Trainingsdaten angewiesen sind. Um die Performance der ASR-Systeme weiterhin zu verbessern, untersucht diese Arbeit die Erweiterung der Trainingsdaten für ein ASR-System mit Hilfe eines DNN-basierten Text-to- Speech (TTS) Synthesesystems. Dafür wird folgender Ansatz gewählt: Aus einem bereits existierenden Corpus werden sprecherspezifische Informationen in Form von Vektoren extrahiert, deren Interpolation die Erzeugung neuer Sprechercharakteristiken erlaubt, indem sie dem Sprachsynthesesystem zugeführt werden. Die Sprache, welche mit den resultierenden Stimmen synthetisiert wurde, wird anschließend für das Training eines GMM/HMM-basierten ASR-Systems verwendet. Für die Entwicklung des ASR-Systems wird bereits der GRASS Corpus eingesetzt, dessen Texte mit den neu erzeugten Stimmen synthetisiert werden sollen, um so den GRASS Corpus akustisch zu erweitern. Nachfolgende Experimente mit dem erweiterten Corpus untersuchen, inwiefern sich die Erweiterung des Trainingsets mit synthetisierten Stimmen auf die Performance des Spracherkenners auswirkt. Es kann gezeigt werden, dass das Hinzufügen einer begrenzten Anzahl an synthetisierten Stimmen zu einer Verbesserung des Spracherkenners führt, bei Überwiegen der synthetisierten Stimmen im Trainingsset verschlechtert sich die Performance jedoch erheblich. Da sich diese Arbeit ausschließlich mit gelesener Sprache beschäftigt, bei welcher die automatische Spracherkennung bereits recht zufriedenstellende Ergebnisse erzielt, wäre es durchaus interessant, in weiterführenden Arbeiten Experimente mit spontaner Sprache durchzuführen, bei welcher die mangelnde Verfügbarkeit an Daten ein noch größeres Problem darstellt.
URL https://phaidra.kug.ac.at/o:127503
BetreuerInnen Pucher, M.