Ils repèrent les contenus illicites

324
octobre 2014
© Loïc Schwartz

Des chercheurs de l’Irisa collaborent avec une PME islandaise pour aider les policiers dans leur recherche de vidéos malveillantes.

À l’heure du numérique, les vidéos prolifèrent. Du sketch de quelques minutes à l’émission littéraire, en passant par les films piratés, tout circule, tout se diffuse. Dans ce foisonnement, les vidéos malveillantes, au contenu pédopornographique ou terroriste notamment, s’infiltrent sans problèmes. En Islande, la police a fait appel à une jeune PME spécialisée dans l’analyse d’images à grande échelle, Videntifier Technology, pour l’aider à fouiller efficacement dans les disques durs saisis. Des chercheurs de l’Irisa de Rennes(1) sont directement impliqués dans cette démarche.

Une mémoire infinie

« Je travaille depuis de nombreuses années avec un collègue de l’université de Reykjavík, explique Laurent Amsaleg, chercheur CNRS à l’Irisa et responsable du projet. En 2003, nous avons encadré ensemble deux étudiants... qui ont ensuite créé Videntifier Technology ! Nous leur avons alors transféré une partie de nos connaissances », ajoute l’informaticien. Les chercheurs avaient mis au point une approche efficace pour trouver rapidement des images qui se ressemblent dans des bases contenant des millions de photos. Sur ce terreau fondamental, ils ont fait germer un logiciel capable de repérer des contenus malveillants, en se basant sur une mémoire visuelle. Pour chaque image qui passe dans le logiciel, des critères précis sont analysés : texture, couleur, contraste... dans différentes zones très fines. Ces critères sont mémorisés par le logiciel et comparés à ceux des images vues précédemment. S’il y a coïncidence, ou ressemblance avec une image précédente, alors le logiciel peut la ranger automatiquement. Sinon, un opérateur humain - ici un policier - prend le relais et la classe (malveillante ou non, par exemple). « Au fur et à mesure, cette mémoire va s’accroître. Plus le temps passe, plus le logiciel aura analysé d’images, et plus il sera capable de les classer rapidement. Un des enjeux est de rendre cette mémoire infinie en gardant la même vitesse de réponse ! Et qu’elle puisse être partagée et enrichie par les polices de différents pays. »

Des logos trop simples

L’autre défi repose sur la reconnaissance d’image. « Comment déterminer ce que l’on retient d’une image pour l’identifier ? » Pour les vidéos, la notion de mouvement entre en ligne de compte. « Mais sur notre dernier projet commun, cela s’est complexifié », ajoute le chercheur. Il s’agissait de repérer des logos sur les vidéos, un élément souvent présent sur les vidéos terroristes. « Le problème est qu’ils apparaissent souvent en petit, en mauvaise qualité et sont graphiquement très simples ce qui ne nous arrange pas. » Peu de couleurs, peu de textures... finalement peu de singularités auxquelles s’accrocher. « Avec ma collègue Ewa Kijak, nous sommes parvenus à mettre au point un détecteur spécifique. Il prend en compte la notion de mouvement justement, car le logo, dans une vidéo, c’est souvent un élément qui reste fixe... même s’il peut y avoir du mouvement derrière ! » Les contenus passent à travers deux filtres, pour isoler les images avec logo puis analyser le détail de l’image. Et chaque fois qu’il y a un doute, un policier prend la main.

Chacun reprend sa route

Ces travaux, financés dans le cadre d’un appel à projets européen, viennent de se terminer et la nouvelle brique technologique est intégrée au logiciel proposé par la société, qui est déjà utilisé en Chine, en Scandinavie ou encore aux États-Unis. « Nous nous retrouverons sûrement sur un autre projet. C’est un échange très stimulant, nos deux anciens étudiants nous apportent des problématiques complexes auxquelles nous n’aurions sans doute pas pensé au départ. Et nous leur apportons en échange des contributions scientifiques essentielles à leur développement. »

Trouver rapidement son plus proche voisin : un défi mathématique et informatique

Pour classer les images, le logiciel développé par Laurent Amsaleg analyse de nombreux détails de chaque image. Pour chacun, il va observer plusieurs critères. La quantité de pixels noirs ou blancs, par exemple. Cela se traduit par un point, qui vient se placer dans un plan où est recensé le même critère analysé dans chaque détail de chaque image vue précédemment. Ils 'agit ensuite de reprérer si certains points sont très proches. Cela signifie alors que, pour cette caractéristique, les deux éléments d'image se ressemblent. Mais plusieurs milliers de détails sont analysés sur chaque image, et pour chaque détail, plus d'une centaine de critères. Il faut donc chercher des points proches dans un espace à plusieurs centaines de dimensions. Et quand il faut traiter des dizaines de milliards de points, il faut des algorithmes rusés pour faire cela rapidement ! C'est un domaine de recherche complexe, qui intéresse beaucoup de scientifiques notamment à l'Inria aujourd'hui.

Tabs

Céline Duguey

Ajouter un commentaire

L'ACTUALITÉ