Abschlussarbeit

Zurück zur Liste

Quellen Seperation in Anwendung auf Extraktion einer Gesangsstimme aus 2-Kanal Audioaufnahmen

AutorInnen Rieck, S.
Jahr 2012
Art der Arbeit Diplomarbeit
Themenfeld Audiosignalverarbeitung
Schlagwörter Aufnahmetechnik
Abstract Ziel dieser Arbeit ist die Extraktion der Gesangsstimme aus einer polyphonen Stereoaufnahme. Die vorgeschlagene Umsetzung besteht aus 2 Verarbeitungsschritten. Zunächst wird die Annahme verwendet, dass sich die Gesangsstimme in der Mitte des Stereopanoramas befindet. Unter Verwendung eines Ähnlichkeitsmaßes wird jener Teil aus der Stereoaufnahme extrahiert. Das resultierende Mono-Signal stellt das Ausgangssignal für die weitere Verarbeitung dar. Zweitens, wird der stimmhafte und der stimmlose Anteil des Gesangs separat extrahiert. Der extrahierte Gesang setzt sich dann aus der Summation beider genannten Anteile zusammen. Die Extraktion des stimmhaften Anteils beruht auf der Detektion der Grundfrequenz f0 des Gesangs und der dazugehörigen Obertöne. Unter Verwendung des „Sinusoidal Model“ werden alle Partialtöne des Gesangs synthetisiert. Zur Extraktion des stimmlosen Anteils des Gesangs, wird das Mono-Signal in der Zeit-/Frequenzdomäne in Segmente unterteilt. Jene Segmente welche dem Gesang zugeordnet werden können, werden dann extrahiert. Die Vorverarbeitung des Stereo-Signals verbessert die mittlere Genauigkeit der Extraktion des stimmhaften Gesangs um 12% und jene des stimmlosen Gesangs um 7%. Die Detektion der Gesangs f0 basiert auf der Diplomarbeit von A. Rahimzadeh. Die vorgeschlagenen Änderung verbessern die mittlere Genauigkeit um 16%. Die Qualität der Extraktion der Gesangsstimme wurde mit Hilfe üblicher Maße evaluiert und erreicht eine mittlere „Source to Distortion Ratio“ von 35.1dB. Dies stellt eine Verbesserung um 5-10dB zu aktuell verwendeten Methoden dar. Die mittlere „Source to Distortion Ratio“ liegt bei -2.4dB.
URL http://phaidra.kug.ac.at/o:11125
BetreuerInnen Sontacchi, A.