Les stats : des modèles au top

286
avril 2011
© Inra
Pour écrire son modèle, Nathalie Krell s’est appuyée sur les données recueillies par une biologiste de l’Inra : des heures de films sur les divisions d’Escherichia coli dans des conditions variées.

Industrie minière, génétique, traitement de l’image : voici trois exemples d’applications des statistiques rennaises.

Venus d’horizons différents (Ajaccio, Caen, Grenoble) et après un passage à l’étranger (Chili, Mexique, Danemark...), ces trois jeunes enseignants-chercheurs se retrouvent au laboratoire de statistiques de l’Institut de recherche mathématique de Rennes (Irmar)(1) où ils se côtoient lors de séminaires hebdomadaires. Le parallèle s’arrête là. Car ils sont arrivés chacun avec leur sujet dans leurs cartons.

Pour concasser des cailloux

« Au Chili, où j’ai passé 5 mois, commence Nathalie Krell, la recherche est souvent financée par des fonds privés. C’est comme cela que j’ai été amenée à travailler sur le concassage de cailloux, un thème qui intéresse l’industrie minière ! » Le rapport avec les statistiques ? Les cailloux passent par une première machine et ressortent avec une taille qui dépend du premier tamis. Ils passent ensuite dans une deuxième machine dont le tamis est de taille fixe. Les statisticiens ont été appelés à la rescousse pour calculer la taille optimale du premier tamis pour que les cailloux qui en sortent soient concassés le plus efficacement possible par la seconde machine, de façon à réduire le coût énergétique du concassage.

« Pour mener l’étude statistique, j’ai utilisé un modèle probabiliste connu et différents paramètres : la fonction du coût de concassage, les tailles de cailloux... Au début, on part d’une situation simplifiée où les cailloux tombent un par un dans la machine. Puis, on cherche à se rapprocher de la réalité en faisant les calculs à partir d’un flux de cailloux et on essaie de rendre le débit aléatoire. Mais on est toujours dans la théorie car nous n’avons pas accès aux données réelles. »

Prendre en compte la dépendance

Depuis juin 2010, Nathalie Krell adapte son modèle à un autre cas concret : celui de la division d’Escherichia coli, une bactérie non pathogène très utilisée en laboratoire. « Quand on m’a présenté le problème – pourquoi elle finit par se diviser en deux – il y a une équation, liée à sa croissance, dont j’ai eu l’intuition avant d’avoir réussi à la montrer formellement. Le phénomène est finalement assez proche du concassage des cailloux : il existe une notion de dépendance entre l’objet initial qui se fragmente et les objets finaux. La masse globale reste constante au cours du temps. » Du point de vue mathématique, ce phénomène de dépendance complique considérablement la résolution du problème. C’est toute la difficulté des statisticiens : arriver à prendre en compte un maximum de paramètres pour que le modèle soit le plus représentatif possible de la réalité.

Des données par millions

Le cas de Mathieu Émily est un peu différent. Il applique les modèles statistiques à la génétique, et notamment à la génétique humaine, un domaine très compétitif et concurrentiel. « La technologie progresse si vite que la stratégie statistique d’analyse de ces données consiste à adapter des modèles déjà existants, comme des modèles de régression, par exemple. » Sa principale difficulté vient du très grand nombre de données à manipuler. En statistiques, on parle de problèmes à grandes dimensions. Les données elles-mêmes sont simples : il s’agit des quatre lettres qui correspondent aux quatre nucléotides (bases de l’information génétique). C’est leur organisation et la taille de la séquence qu’elles forment qui sont fondamentales. « L’inversion d’une seule lettre peut avoir des conséquences, précise le chercheur. Alors imaginez le casse-tête quand il s’agit de calculer toutes les possibilités d’enchaînements sur des séquences de 500000 à 1 million de nucléotides... ! »

Le but ultime du travail de Mathieu Émily est d’arriver à déterminer des associations de nucléotides sur le génome, qui pourraient expliquer, par exemple, des prédispositions à des maladies. Au cours des travaux qu’il a réalisés au Danemark, il a comparé 15000 génomes de sujets sains à 5000 génomes de personnes atteintes d’un cancer de la prostate. « Nous avons obtenu des résultats intéressants, que nous avons publiés en 2009. Mais cela est très fondamental. Il faut encore faire beaucoup de validations et d’expérimentations avant de voir si les interactions détectées peuvent être utilisées. » Récemment, Mathieu Émily a lié des contacts avec une équipe rennaise qui travaille sur la génétique du chien.

Besoin des praticiens

Myriam Vimond aussi est encore loin des applications. Partie d’un cas concret qui est celui de la gestion du trafic routier, elle cherche aujourd’hui à adapter son outil, l’alignement de signal, au traitement d’images médicales. Elle traite des données qui ont la particularité d’évoluer au cours du temps. Dans le cas d’une image médicale, il peut s’agir de clichés pris à différentes dates, mais aussi de zooms, de rotations ou de translations de l’image. « Réaligner deux images permet de gagner en précision et en qualité, explique-t-elle. La méthode développée avec mes collègues de l’université de Toulouse est performante, mais des améliorations sont possibles. Par exemple, les temps de calcul sont encore trop longs. Et surtout, je pense que les traitements que j’ai faits des images sont encore loin de ce qui est pratiqué en réalité.». La jeune femme envisage de rencontrer des praticiens pour leur présenter son idée. « D’autres équipes de recherche travaillent sur ces questions en utilisant les statistiques, mais avec un autre point de vue sur les données. Pour l’instant, on ne sait pas encore quelle méthode sera, au final, la plus performante pour l’application envisagée au départ. » Misons pour la solution rennaise ! Qui pourrait peut-être s’avérer utile dans d’autres contextes, comme celui du jeu vidéo, par exemple.

Chapeau les maths !

Rennes Métropole distribue chaque année des allocations à des chercheurs nouvellement arrivés à Rennes(2). Fin 2010, cinq mathématiciens ont été récompensés, en plus de la dizaine de chercheurs en biologie, médecine, physique... « Nous avons choisi de mettre un coup de projecteur sur les mathématiques rennaises en sélectionnant les cinq dossiers présentés par l’Irmar », explique Anne-Yvonne Cozic, chargée de l’enseignement supérieur, de la recherche et de l’innovation à Rennes Métropole.

Parmi eux, trois statisticiens dont Nathalie Krell qui va acheter du matériel de visioconférence et un tableau blanc interactif « pour rendre plus pratique les échanges avec mes collègues au Chili et au Mexique », et Mathieu Émily, qui a besoin de puissance de calcul et de stockage et qui a craqué pour plusieurs serveurs de calcul. Du matériel de calcul, c’est aussi ce dont ont besoin Yannick Privat, spécialiste de l’analyse (lire p.13), et Sylvain Duquesne, algébriste (lire p.14). Ce dernier a également acheté des livres, car la cryptographie est une discipline très récente à Rennes (2008).

Tabs

Nathalie Blanc

Ajouter un commentaire

LE DOSSIER