Abschlussarbeit

Zurück zur Liste

Detection of singing voice signals in popular music recordings

AutorInnen Rahimzadeh Assbforoushani, A.
Jahr 2009
Art der Arbeit Diplomarbeit
Themenfeld Audiosignalverarbeitung
Schlagwörter Voice / Music Separation, Multi Pitch Estimation, Multi Pitch Tracking
Abstract Die automatisierte Analyse des musikalischen Inhalts polyphoner Audiosignale ist ein immer wichtiger werdendes Forschungsgebiet. Von großem Interesse sind vor allem (Gesangs-) Melodie Extraktionsalgorithmen welche die Basis für eine Reihe interessanter Anwendungen bilden. Zu diesen zählen Strukturanalyse von Musikstücken, score-following (Synchronisation zwischen Notentext und akustischem Signal), query-by-humming (Durchsuchen digitaler Musikdatenbanken durch Singen/Summen einer markanten Passage) sowie Anwendungen im Karaoke Bereich, wie das Entfernen der Gesangstimme aus einem Musiksignal. Ausgangspunkt für eine zuverlässige Detektion der Gesangsmelodie ist die korrekte Schätzung des Zeit-Frequenzverlaufs des Grundtons der Gesangsstimme. Ziel dieser Arbeit ist das Auffinden von Gesangssignalen in polyphonen Popmusik Aufnahmen. Die Herausforderung besteht darin, die einzelnen gleichzeitig auftretenden Klangquellen im komplexen Musiksignal zu erkennen und sie aufgrund Ihrer Eigenschaften als Gesang oder Instrumentalklang zu klassifizieren. Der vorgeschlagene Ansatz beruht auf der Analyse von Grundtontrajektorien, welche in einem zweistufigen Verfahren aus dem Musiksignal geschätzt werden. Dazu wird das Audio Signal einer mehrfachen segmentweisen Tonhöhenschätzung (Multi Pitch Estimation, MPE) unterzogen, gefolgt von einem „Tracking“ Algorithmus, der die Tonhöhenkandidaten über Segmentgrenzen hinweg zu kontinuierlichen Frequenz-Trajektorien verbindet. Der Tracking“-Algorithmus verwendet kubische Interpolation um eine genauere Vorhersage des tatsächlichen Gundtonverlaufs einer Klangquelle zu ermöglichen. Außerdem wird das Signal vor der Tonhöhenschätzung einer dem menschlichen Gehör nachempfundenen Vorverarbeitung unterzogen, welche in der Lage ist schwache oder fehlende Grundtonkomponenten aus der Obertonstuktur eines Klanges zu regenerieren. Die so extrahierten Grundtontrajektorien werden schließlich aufgrund der Eigenschaften des Zeit- Frequenz-Verlaufs als Gesangs- bzw. Instrumentalklänge klassifiziert. Die entwickelte Methode wurde mittels des „MIREX 2005 – Training data set – vocal“ evaluiert. Die Genauigkeit der Tonhöhenschätzung von Vokalklängen in polyphonener Musik liegt bei 90,4% während die Klassifizierung zwischen Instumentalklang bzw. Gesang bei ca. 79,1% liegt.
URL http://phaidra.kug.ac.at/o:11127
BetreuerInnen Sontacchi, A.