2015-2016: Implémentation et paquetage d’un modèle statistique de classification non supervisee pour la détection de tumeurs

Environnement : équipe-projet MISTIS, LJK & Inria Rhône-Alpes
Encadrants : Alexis Arnaud (doctorant), Florence Forbes (HDR)
Lieu du stage : Inria Montbonnot
Contact : Alexis Arnaud (alexis.arnaud@inria.fr) et Florence Forbes (florence.forbes@inria.fr)

Description du sujet

Nous avons développé une méthode statistique pour la classification de données IRM multiparamétriques permettant de réaliser un contrôle qualité des données (détection de données atypiques). Une précédente étude [1] se base sur le modèle de mélange de lois gaussiennes dans lequel on cherche à rassembler des observations en groupes (classes) issus de lois gaussiennes. Ce modèle est connu pour sa sensibilité aux valeurs atypiques qui peuvent sensiblement dégrader la pertinence des groupes obtenus. Nous avons donc proposé d’utiliser des lois de Student généralisées [2] qui permettent d’attribuer un poids à chaque observation dans chaque dimension, de façon à pondérer l’influence des valeurs atypiques sur la forme des groupes. Il en résulte une plus grande flexibilité dans l’ajustement des classes. Nous utilisons ainsi un algorithme d’Estimation-Maximisation, ainsi qu’un critère bayésien de sélection de modèle, que nous appliquons sur un échantillon de 37 rats présentant quatre modèles de tumeur. Nous arrivons à détecter des animaux atypiques avant de construire un dictionnaire de tumeurs discriminant fortement les quatre gliomes considérés [3].

Nous souhaitons maintenant compléter l’implémentation de notre modèle pour traiter des situations avec dépendances spatiales et avec des modèles de distributions asymétriques [4], et créer un paquet R (logiciel libre très utilisé en statistique [5]) que nous mettrons en ligne. Ces taches seront confiées au candidat avec en priorité l’implémentation. Ce dernier devra avoir des compétences et un goût pour la programmation (notamment en C++). La connaissance du langage R ainsi que des connaissances en statistique sont un plus appréciable.

Références :
[1] Coquery N, Francois O, Lemasson B, Debacker C, Farion R, Remy C, et Barbier E (2014), Microvascular MRI and unsupervised clustering yields histology-resembling images in two rat models of glioma}, Journal of Cerebral Blood Flow \& Metabolism, volume 34, numero 8, 1354–62.
[2] Forbes F, et Wraith D (2014), A new family of multivariate heavy-tailed distributions with variable marginal amounts of tailweights: Application to robust clustering}, Statistics and Computing, volume 24, numero 6, 971–984.
[3] A. Arnaud, F. Forbes, B. Lemasson, E. Barbier and N. Coquery.  Melanges de lois de Student a Echelles Multiples pour la caracterisation de tumeurs par IRM multiparametrique. Journees de la SFDS, 2015.
[4] D. Wraith and F. Forbes. Location and scale mixtures of Gaussians with flexible tail behaviour: Properties, inference and application to multivariate clustering. Computational Statistics and Data Analysis, 2015.
[5] R Core Team. R : A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria, 2012. ISBN 3-900051-07-0.

Ce contenu a été publié dans Projet M1 WIC, Projet M1 WIC 2015-2016. Vous pouvez le mettre en favoris avec ce permalien.