Abschlussarbeit

Zurück zur Liste

Exemplar-based audio inpainting in musical signals

AutorInnen Marafioti, A.
Jahr 2021
Art der Arbeit Dissertation
Themenfeld Audiosignalverarbeitung
Schlagwörter Auditorische Wahrnehmung, Klangsynthese, Künstliche neuronale Netze (ANN)
Abstract Audio-Inpainting befasst sich mit lokalen Lücken von verzerrten oder verlorenen Informationen, wobei die Rekonstruktion darauf abzielt, aussagekräftige Informationen bereitzustellen und hörbare Artefakte zu verhindern. Audio-Inpainting ist ein großer Forschungsbereich, der zahlreiche Lösungen für kurze Lücken, d.h. von weniger als 25 ms, bereits jetzt schon bietet. Das Inpainting längerer Lücken, d.h. von etwa einer Sekunde, ist nur durch Kopieren von Informationen aus anderen Teilen des Signals möglich. Dieses PhD-Projekt zielt darauf ab, das Forschungsgebiet des Audio-Inpaintings auf drei Arten zu erweitern: 1) durch Bereitstellung neuer Methoden zur Verlängerung der zu rekonstruierenden Lückendauer, 2) durch Untersuchung, wie die fehlenden Informationen für Lücken im Bereich von Sekunden rekonstruiert werden können, und 3) durch Untersuchung neuer Techniken von maschinellem Lernen für Audio-Inpainting. Zu diesem Zweck entwickelten wir ein neuronales Netzwerk (Context-Encoder), das auf die exakte Wiederherstellung von Lücken bis zu 120 ms abzielt, indem Muster aus einem Musikdatensatz extrahiert und gelernt werden, um den Lückeninhalt vorherzusagen. Dieser Context-Encoder veranschaulichte das Potenzial maschineller Lerntechniken für Audio- Inpainting. Anschließend entwickelten wir ein sogenanntes "Time-frequency generative adversarial network" (TiFGAN), das Fortschritte bei der Phasenrekonstruktion, eine sorgfältige Auswahl der Zeitfrequenzdarstellung und modernste Modellierungstechniken für maschinelles Lernen kombiniert. Als nächstes passten wir das Konzept von TiFGAN an Audio-Inpainting an und entwickelten einen "Generative adversarial context encoder for long audio inpainting" (GACELA), welcher Lücken im Bereich von Sekunden rekonstruieren kann. Im Gegensatz zu anderen verfügbaren Systemen zielt GACELA auf lange Lücken ab, ohne eine Information aus dem verfügbaren Teil des Signals zu kopieren, sondern erstellt stattdessen eine fundierte Vorhersage des Lückeninhalts. Angesichts der Natur derart langer Lücken in der Musik kann GACELA verschiedene Lösungen für ein und dieselbe Lücke anbieten. GACELA wurde in Hörexperimenten mit Lücken im Bereich von 375 bis 1500 ms evaluiert. Die Resultate zeigten eine angemessene Inpainting- Leistung, wobei mit zunehmender Lückendauer keine signifikante Leistungsabnahme auftrat. Im Verlauf des PhDs wurde die Bedeutung der Phasenrekonstruktion in Zeitfrequenzdarstellungen deutlich. Daher schließt der PhD mit einer eingehenden Analyse der Wechselwirkung zwischen Phasenrekonstruktionsalgorithmen, den Zeitfrequenzparametern und dem Audioinhalt ab. Als Ergebnis der Analyse entstand ein Algorithmus zur Optimierung der Leistung eines beliebigen Phasenrekonstruktionalgorithmus. Zusammenfassend untersuchte das PhD-Projekt relevante Probleme im Bereich von Audio-Inpainting durch dieEntwicklung und Implementierung neuartiger maschineller Lernsysteme. Alle im Rahmen dieses PhDs entwickelten Implementierungen wurden als freie Open-Source-Pakete veröffentlicht, um die Reproduzierbarkeit unserer Ergebnisse durch andere zu gewährleisten.
URL https://phaidra.kug.ac.at/o:112284
BetreuerInnen Höldrich, R., Majdak, P., Balazs, P., Holighaus, N.