Il suit les rebonds du son

336
novembre 2015
Le son peut cogner contre les murs avant d'atteindre notre oreille (ou un micro), qui reçoit alors plusieurs ondes d'une seule et même source. Le phénomène brouilles les messages émis.
DR

À Inria, Quang-Khanh-Ngoc Duong a développé un algorithme prometteur sur le traitement spatial du signal sonore.

Mention Évolutions sociales et sociétales

Téléphoner dans un bus bondé n’est jamais très agréable pour l’interlocuteur en ligne. Les voix des usagers, les annonces préenregistrées des arrêts de bus et l’ensemble des bruits ambiants se confondent en un brouhaha inaudible. Le micro du téléphone capte en effet tous les signaux sonores en un seul paquet qu’il envoie tel quel de l’autre côté du fil. Le jeune chercheur Quang-Khanh-Ngoc Duong a développé, lors de sa thèse(1), une solution qui résout le problème : un algorithme capable d’analyser le mélange de signaux et de séparer les sons pour n’isoler que celui qui présente un intérêt.

Pour distinguer ces sons, il faut d’abord connaître la position de leur source dans l’espace par rapport au capteur (le micro). À l’air libre, ce n’est pas bien compliqué : le son se propage en ligne droite jusqu’à s’éteindre. La position de la source est donc déterminée grâce à plusieurs microphones selon le temps de propagation et l’atténuation du son capté. Mais dans un espace clos, les ondes sonores rebondissent sur les murs : c’est la réverbération. « J’ai donc traduit, sous la forme d’un modèle mathématique, l’information spatiale du son, c’est-à-dire le trajet que le son peut potentiellement emprunter pour arriver jusqu’au micro, en fonction de la variabilité de la réverbération. Cette approche est probabiliste », explique Quang-Khanh-Ngoc Duong.

L’algorithme final doit également prendre en compte le spectre du son. C’est l’ensemble des paramètres qui permet de différencier les voix des gens. « La modélisation de ces informations existait déjà. Mais c’est la première fois qu’elle est combinée à la spatialisation pour séparer des sources sonores », explique l’un de ses directeurs de thèse, Rémi Gribonval, chercheur à l’Irisa.

Des travaux prometteurs

La qualité des résultats obtenus a valu à ces travaux de thèse une audience internationale rapide. Plusieurs groupes de recherche ont repris et adapté les méthodes de Quang-Khanh-Ngoc Duong et des transferts de technologies sont en cours avec plusieurs industriels français et étrangers (Canon Inc., Audionamix SA, Sonic Emotion AG, MAIA SARL). À Inria, des postdoctorants poursuivent les travaux dans la lignée de ces avancées.

Il poursuit la thématique de sa thèse adaptée au cinéma

Lauréat : Quang-Khanh-Ngoc Duong

Quang-Khanh-Ngoc Duong se plonge dans l’univers audio en 2006 lors de son master en traitement du signal, en Corée du Sud. Spécialisé dans le développement d’algorithmes du son, il intègre une entreprise coréenne avant de candidater au poste de doctorant financé par Inria. Après sa thèse, Quang-Khanh-Ngoc Duong entre à Technicolor, leader mondial des équipements et services en son et image, pour réaliser un postdoctorat de 18 mois sur la synchronisation de contenus multimédias (son et image) à partir des empreintes numériques permettant d’identifier les documents audio et vidéo. « Lorsque plusieurs écrans affichent deplans différents d’un concert, par exemple, il y a souvent un décalage entre les images. Mon but est de l’éliminer », précise Quang-Khanh-Ngoc Duong. Embauché en CDI dans la même entreprise, il poursuit actuellement la thématique de sa thèse, adaptée cette fois au contexte du cinéma. « Dans les films anciens, les voix et la bande originale sont souvent enregistrées sur une même piste. Les algorithmes que l’on développe permettent d’analyser le mélange de sons afin de séparer les pistes. »

Renseignements : 
Thèse : Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources.

Tabs

LE DOSSIER