les décortiqueurs de sons

250
janvier 2008
© Nicolas Guillas
L'empreinte vocale n'existe pas, car la voix change au cours du temps, selon les humeurs, la fatigue... On parle plutôt de signature vocale.

voix au téléphone, cris de supporters... d’un enregistrement ces informaticiens extraient des dizaines d’informations.

Le son véhicule autant d’informations que l’image. Coupez le son de votre téléviseur, il vous sera difficile de comprendre de quel sujet traite l’émission. Par contre, une bande sonore peut à elle seule apporter de nombreux renseignements. « Lors d’un événement sportif, par exemple, lorsqu’on entend beaucoup de bruit dans les tribunes ou si la voix du commentateur accélère, on sait qu’il se passe quelque chose », explique Frédéric Bimbot, responsable de l’équipe Métiss(1) à l’Irisa.

Avec ses collaborateurs, il décortique les sons dans leurs moindres détails. « Nous utilisons entre 10 et 50 descripteurs, relatifs à la fréquence, ou l’enveloppe temporelle - les variations d’un son au cours du temps -. Ils nous permettent de comparer les sons entre eux. Mais il est impossible de créer une base de données exhaustive, car il existe une infinité de sons. Nous travaillons donc sur des classes de sons, pour différencier par exemple la parole ou la musique d’un bruit quelconque et les séparer. Cela permet déjà aux programmes informatiques de distinguer plusieurs types d’émissions : musicale, informative... Nous pouvons également reconnaître des voix et, si plusieurs personnes prennent la parole lors d’un débat, il est possible de repérer les changements de locuteurs. »

Droits au buts

Problème : lorsque les sources sonores sont nombreuses, il est difficile de les séparer. Encore plus si les conditions d’enregistrement sont mauvaises. « Distinguer une voix dans un brouhaha enregistré sur téléphone portable, c’est possible dans les séries télé, pas dans la réalité. » En attendant, les travaux de l’Irisa intéressent les experts de France Télécom, dans leurs recherches pour reconnaître et prendre en compte les émotions du locuteur au téléphone. Vous êtes énervé ? Le serveur vocal vous redirigera vers un télé-conseiller apte à répondre à votre demande et à désarmer votre courroux. De son côté, le site rennais de Thomson travaille sur la possibilité de retrouver les différentes actions de jeu d’un enregistrement sportif uniquement grâce à la bande-son. Les spectateurs pourraient accéder aux buts, par exemple, sans visionner tout le match, un peu comme on se promène dans les chapitres des DVD. Et qui sait ? Il existera peut-être bientôt un “Google son” : un moteur de recherche capable de retrouver une chanson dans une base de données sonores, à partir d’un fredonnement dans le micro de votre ordinateur. Même si vous ne chantez pas juste...

Tabs

Céline Duguey

Ajouter un commentaire

LE DOSSIER