Audiosignalverarbeitung

Audiosignalverarbeitung

Im Bereich der Audiosignalverarbeitung konzentrieren wir uns am IEM vor allem auf die Klanganalyse, Klangmodellierung und die Extraktion musikalisch bzw.  sprachlich relevanter Eigenschaften und Informationsmerkmale. Das Themenfeld umfasst Methoden der Zeit-Frequenz-Verarbeitung, der Multiratenverarbeitung und der adaptiven Filterung.

Audiosignalverarbeitung

Ein hehres Ziel der Audiosignalverarbeitung stellt die Verbesserung von Audiomaterial oder die Optimierung der akustischen Gegebenheiten für eine AnwenderIn bzw. RezipientIn dar. Beispiele dazu sind die Unterdrückung von Störsignalen, die aktive Geräuschunterdrückung oder die Verschleierung eines kurzen Signalausfalls bei digitalen Funkübertragungen. Generell kann man bei den genannten Verbesserungen zwischen sende- und empfangsseitigen Maßnahmen unterscheiden. Im ersten Fall werden störende Signale unterdrückt; im zweiten Fall werden die Geräusche akustisch (auf der Wiedergabe-/Empfangsseite) durch Zuspielung von destruktiv interferierendem Schall reduziert. Bei der Ausfallverschleierung werden Signaleigenschaften permanent in Echtzeit analysiert, um bei kurzzeitigen Signalausfällen das fehlende oder gestörte Signal adäquat zu ersetzen. Allen drei Anwendungen ist gemein, dass Klänge analysiert und später resynthetisiert werden. Ebenso bedienen sich alle drei Ansätze der Theorie der adaptiven Filterung.

Zur inhaltlichen Analyse eines Musikstücks gehen wir noch einen Schritt weiter: mit Hilfe geeigneter Signalparameter werden musikalisch relevante Informationen extrahiert. So kann beispielsweise die dem Signal innewohnende Periodizität zur Bestimmung der Grundtonhöhe genutzt werden. Relevante Informationen eines Musikstücks sind in erster Linie seine Melodik, Harmonik und Rhythmik. Music Information Retrieval umfasst nicht nur die automatische Transkription des Stücks, sondern kann darüber hinaus für Anwendungen wie AutoDJ oder AutoKaraoke genutzt werden. Desweiteren kann die Gesamtstruktur eines Stücks erfasst werden, um beispielsweise Beginn und Ende des Refrains zu markieren.

Zur Einordnung in musikalische Kategorien ist die Bestimmung der Ähnlichkeit zweier Musikstücke von Bedeutung. Dabei ist unerheblich, ob es sich um vordefinierte Genres (Klassik, Jazz, Rock) oder um Metabegriffe (uptempo, laid-back) handelt. Eine mögliche Anwendung stellt die automatische Erstellung von Wiedergabelisten für große Musiksammlungen dar.

Die Bestimmung aussagekräftiger Signalparameter ist auch bei gesprochener Sprache von Interesse. Am IEM arbeiten wir derzeit auch daran, Zusammenhänge zwischen der Sprechweise und dem emotionalen Zustand der sprechenden Person zu finden und dabei die melodisch-rhythmische Eigenschaften der Sprache (die Prosodie) zur Erkennung von Belastung und Stress zu nutzen.

Die verwendeten Methoden zur Analyse, Transformation und Resynthese (wie Filterbänke, Transformationen, additive Synthese etc.) sind dabei nicht nur Mittel zum Zweck, sondern werden auch wissenschaftlich erforscht. Beispiele sind die Multiraten-Signalverarbeitung, die Zeit-Frequenz-Verarbeitung oder die Sinustonmodellierung.

Veröffentlichungen & Dokumente

Ansprechpersonen

Robert Höldrich