La conception et la mise en œuvre de méthodes et d'algorithmes issues de l'IA pour l'extraction de connaissances à partir de données biopuces et cliniques.

Contexte scientifique

Le développement du Programme Génome depuis 1990 a permis petit à petit l’établissement de cartes génétiques et  le séquençage complet de génomes de représentants des principaux groupes vivant [Bernot, 2001]. D’ici fin 2003, il est vraisemblable que celui de l’homme sera achevé et déjà de nouveaux programmes sont en chantier pour ce qui sera l’ère de l’après-séquençage. L’un des chantiers scientifiques les plus enthousiasmants est celui qui consiste à établir les profils d’expression des ARN messagers à grande échelle.

La technologie des puces ADN permet l’analyse fonctionnelle des profils d’expression (on parle de ce fait du transcriptome) de milliers de gènes d’animaux ou d’humains. Pour simplifier, sur chaque repère d’une puce ADN est disposé un gène qui, mis en contact d’un tissu, va plus ou moins s’exprimer (dans le cas des puces pangénomiques que nous utilisons, des dizaine de milliers de gènes). Cette expression se traduira —grâce à la fluorescence— par une intensité de couleur du rouge (sur-exprimé) au vert (sous-exprimé) (cf. Figure 1 ci-dessous). 

Figure 1 : Vue partielle d’une puce ADN. L’intensité de la couleur rouge d’un spot de la puce (resp. verte) traduit la sur-expression (resp. sous-expression) du gène en contact d’un tissus par rapport à des conditions de référence.De nombreuses équipes de par le monde et en France [Le Journal du CNRS, 2001] utilisent aujourd’hui cette technique pour identifier des familles de gènes regroupés en fonction du degré de similarité de leur expression selon différentes conditions expérimentales. On peut en effet faire des expérimentations sur différents individus, différents tissus d’un même individu ou différents instants dans le temps d’un même tissu. Ces expérimentations ayant pour objectif de dégager des profils d’expressions de gènes co-exprimés.L’algorithme d’Eisen [Eisen et al. 1998] est l’une des nombreuses techniques d’analyse de données largement utilisée pour analyser des profils d’expression. La Figure 2 présente le type de résultat obtenu sur une des basés de données que nous utilisons. Ici les gènes sont en abscisse, plus ils sont rouges plus ils ont été exprimés. Les clusters A, B, C, D et E ont été ici manuellement sélectionnés. Ils regroupent des gènes qui présentent —ici dans le temps–— des profils d’expression similaires. Il existe d’autres techniques basées sur les cartes de Kohonen [Tamayo et al. 1999] ou le partitionnement de données [Heyer et al. 1999]. Des algorithmes d’apprentissage supervisés ont aussi été utilisés pour analyser les profils d’expression : Machines à vecteurs de supports [Brown et al. 2000] ou analyse en composantes principales [Raychaudhuri et al. 2000]Figure 2: Les résultats de l’algorithme de Eisen [Eisen et al. 1998] pour le regroupement de gènes ayant les mêmes profils d’expression.La technologie des biopuces permet d’extraire dans des conditions expérimentales données, des matrices d’expression de gènes (taux en ARN) suivant différentes expériences et différents instants expérimentaux. 

Suivant la problématique qu’ils étudient, les biologistes qui conduisent les expériences peuvent poursuivre différents objectifs : étudier la fonction de certains gènes dans une pathologie donnée à l’aide de gènes issus de tissus pour lequel le diagnostic a déjà été réalisé, diagnostiquer avec précision des pathologies à partir des données issues de biopuces, identifier des groupes de gènes dont le rôle est similaire sous certaines conditions expérimentales, modéliser le réseau de régulation génique sous-jacent à partir de groupes identifiés de gènes et de  connaissances a priori, diagnostiquer avec précision des pathologies à partir des données issues de biopuces. Une très vaste majorité des analyse de données issues des bio-puces —une centaine de plateformes existe aujourd’hui— se limitent à l’identification des gènes co-exprimés et laissent aux biologistes la tâche de leur caractérisation.

Projet scientifique

Au-delà du regroupement des gènes de mêmes profils d’expression sur les puces ADN (ou puces à ADN ou encore microarray)., le problème de la compréhension de ce qui caractérise les gènes qui possèdent le même profil d’expression est essentiel. Il est clair que pour aborder ce problème, les seules données des biopuces sont insuffisantes. De fait, lorsque les biologistes tentent de caractériser les gènes co-exprimés, ils utilisent de multiples bases de données accessibles via Internet : base de données d’articles, base de données d’annotations de gènes, base de données de séquences, base de données sur les EST[1], base de données sur les fonctions des gènes, etc.

Figure 3 :  Questions des biologistes (en bas) et domaines de l’IA permettant d’apporter un élément de réponse à ces questions (en haut).

Problématique informatique: la génomique fonctionnelle de l’obésité

Dans le cadre du présent projet, il s’agit notamment de représenter les différentes transformations depuis les données brutes issues de la puce ADN, leur enrichissement par des données du domaines et enfin leur analyse par des algorithmes d’apprentissage. Il s’agit donc de:

  • modéliser les multiples transformations dans le processus de fouille de données issues de puces ADN,
  • définir la sémantique d’un ensemble d’opérateurs de transformation des données obtenues sous la forme de matrice de ratios d’intensité  (dimension, sélection d’attribut, identification des variations significatives, discrétisation, traitement des données manquantes, etc.),
  • mettre en œuvre ces transformations dans le cadre d’un environnement de fouille de données ouvert dédié au traitement des données issues de biopuces et où le processus d’analyse puisse être explicitement mémorisé,
  • concevoir différentes d’extraction de connaissances à partir de données structurées (BD), semi-structurées (XML) ou de textes, intégration et fusion de données,
  • concevoir et raffiner des algorithmes d’apprentissage supervisés et non-supervisés pour la caractérisation des fonctions des gènes prenant en compte les connaissances du domaine définir des algorithmes dédiés à la visualisation des résultats.

Problématique biologique: la génomique fonctionnelle de l’obésité

L’obésité est devenue la pathologie nutritionnelle la plus fréquente dans les pays industrialisés. Elle est maintenant considérée comme la pathologie d’un organe, le tissu adipeux, et de ses relations avec les autres structures impliquées dans la mise en réserve et l’utilisation d’énergie : le muscle, le foie et le système nerveux central [Clement et al. 1996; Clement 2000]. Comme mentionné plus haut, nous collaborons avec l’équipe du Dr. Karine Clément sur un projet d’étude génomique fonctionnelle de l’obésité[2] Les profils d'expression génique du tissu adipeux sont étudiés chez des individus obèses en situation de restriction calorique sévère. L’objectif est d’analyser les regroupements de gènes dont l’expression est modifiée par une restriction énergétique de courte durée (48h) et par une restriction calorique plus longue (un mois). Ces modifications géniques  seront comparées à une situation où le tissu adipeux adresse au système nerveux central un message leptine de type “jeûne métabolique chronique”, c’est à dire les situations d’absence de leptine chez les patients porteurs d'une mutation du récepteur de la leptine (cf infra). Chez le rongeur, le modèle du jeûne total chez des souris normales et dans différents modèles monogéniques de rongeurs porteurs d'altérations de la voie leptine et de la voie des mélanocortines sont utilisés. Les profils d'expression génique dans le tissu adipeux et d'autres tissus périphériques (foie, muscle) de rongeurs à l'état nourri  et après 48h de jeûne sont à caractériser. Nous bénéficions, dans le cadre d'une collaboration de Karine Clément avec le laboratoire de G Barsh à l'Université de Stanford, d'un accès à des puces à ADN de haute densité comportant 18000 ADNc. Ces ADNc sont issus d'une banque de clones provenant d'un criblage de centaines de tissus chez la souris, et comportent vraisemblablement 20 à 30 % de redondance. Ils ont été séquencés. Ces puces ont été développées récemment et déjà utilisées dans le cadre de projets précédents chez l'homme et le rongeur. Si d'autres matériels de haute densité deviennent éventuellement disponibles en France, nous envisagerons de les utiliser également pour nos expériences

De même, l’INSERM soutient ce type de recherche notamment à travers ses appels à projet AVENIR. Karine Clément à obtenu un projet INSERM-AVENIR sur la génomique fonctionnelle de l’obésité où nous sommes responsable de la partie analyse de données. Le sous-projet consacré aux algorithmes de regroupement conceptuel est baptisé ObeLinks.

La fouille de données issues de Biopuces s’organise actuellement en France comme en témoigne la présentation de Michèle Sébag sur les activités de GafoPuces lors de la journée de présentation des AST du STIC.

Dans le cadre de l’IMPGl'action nationale Informatique, Mathématiques et Physique pour la Génomique (IMPG) qui concerne une trentaine d'équipes et environ 500 chercheurs.) il existe plusieurs groupes dont les problématiques recoupent celles présentées dans la partie précédente de ce documentIl s’agit d’abord  du groupe Analyse Statistique du Transcriptome (groupe AST dont les responsables sont Patrick ,Pierre Hilson, Jean-Pierre Nadal  et Stéphane Robin) et du groupe Bases de Données, Interfaces et Ontologies  (groupe BDIO dont les responsables sont Emmanuel Barillot  Philippe Bessières  François Rechenmann)Si de nombreuses équipes travaillent sur des données issues de biopuces, la singularité des travaux de l’équipe IAPuces est d’une par de se placer en aval des algorithmes de découverte de gènes co-exprimés, d’utiliser des puces pangénomiques et enfin de recourir à une représentation multiples des gènes à différent niveau d’abstraction (séquence, fonction, annotation, textes, articles, etc.). Il existe en effet près d’une centaine de plate-formes logiciels universitaires ou commerciales disponible pour le regroupement de gènes co-exprimés (http://ihome.cuhk.edu.hk/~b400559/arraysoft.html). Il est donc important de trouver un positionnement stratégique par rapport à ces recherches.

En ce qui concerne la recherche sur l’obésité, celle-ci connaît actuellement un développement important. Cet intérêt se justifie par la progression épidémique de la maladie, confirmée par un rapport de l’OMS, et souligné par un expertise collective de l’INSERM. Les équipes de recherche françaises font partie des groupes en pointe au niveau international dans le domaine tant en ce qui concerne, entre autres, la biologie cellulaire de l’adipogenèse (Ailhaud, 1998), les facteurs impliqués dans la lipolyse (Lafontan, 1998), les mécanismes moléculaires de la dépense énergétique (Ricquier, 1998) que la génétique humaine (Froguel, 2000, Clément, 2000). Une collaboration étroite se poursuit avec G Barsh, pour l'accès aux bases de données de Stanford, la saisie des données ("Stanford Microrray Database") et l'évolution des modèles d'analyses. D’autres collaborations sont en œuvre pour le traitement des puces[6].

Aspects Analyse: Projet OBELINKS INSERM-AVENIR

Nous avons développé un ensemble d’outils pour la récolte des données. Il s’agissait en particulier de récupérer automatiquement des informations issues de la base de données en ligne GeneOntology pour compléter la description des gènes. Nous avons d’autre part conçu un programme permettant d’extraire des connaissances sur les fonctions des gènes. Celui-ci est essentiel aux algorithmes de regroupement d’objets que nous utilisons [Bournaud, Courtine & Zucker, 2002]

Figure 4 : Schéma de la procédure d’analyse des données issues des puces ADN dans ObeLinksUne fois les données extraites, des informations sur la fonction des gènes est récupérée automatiquement sur la base GO. Cette information est ensuite utilisée pour construire des regroupement fonctionnel pertinent de  gènes regroupés selon leur profil d’expression


[1] Les EST (Expressed Sequence Tags) n'ont aucune fonction biologique précise, ce sont de courtes séquences d'ADN utilisées pour "étiqueter" les gènes et permettre de décoder de longues séquences d'ADN.

[2] Le projet de l’EA3502 rassemble des compétences dans des domaines complémentaires : cliniques, biologiques et d'analyse d'information à travers un partenariat entre des enseignants chercheurs hospitaliers, des chercheurs de l’IFR056, d’unités INSERM, et implique la génopole parisienne (Montagne Sainte Geneviève).  

[3] Pendant la préparation du 6eme PRCD, l’INSERM a annoncé comme l’une de ses priorités l’obésité et celle-ci est amené à être un sujet de recherche majeur dans la communauté européene.

[4]

C'est le Prof. Eric Clément qui coordonne la collaboration au niveau du LMDH. Un rappel des différents participants, de l’agenda et  des objectifs du projet est disponible à l'adresse suivante: http://www-poleia.lip6.fr/~zucker/Research/Granulab.htm

[5] Le programme génome CNRS lancé au printemps 1997 et qui s'est terminé au printemps 2000 a fortement soutenu un axe "Développement Technologique" puisque 30% de ses ressources y auront été consacrées et pour l'essentiel pour soutenir 3 projets concernant la technologie des puces à ADN. Persuadé de l'importance grandissante de cette technologie à l'ère de l'après séquençage, le CNRS a lancé une nouvelle action intitulée "Puces à ADN" qui couvre la période octobre 2000 - octobre 2003. Cette action interdépartementale est dotée d'un budget annuel de 6 MF et a la volonté de soutenir des recherches dans trois domaines jugés importants : a) la bio-informatique associée à la conception des puces mais aussi au traitement des données expérimentales,b) les développements technologiques de nature à améliorer la construction mais également la détection des signaux, c) le développement des applications

[6] La lecture des puces est réalisée grâce à la plate-forme de génomique fonctionnelle parisienne (Montagne Sainte-Geneviève, Laboratoire du Pr. C Jacq) qui dispose du matériel nécessaire à la lecture des plaques (scanner AXON). Une collaboration est en cours avec les groupes de D Langin (Insem U317) et H Vidal (Inserm U 449) pour les études chez l'homme et pour l'établissement de puces à cDNA tissus spécifiques à partir de bibliothèques de tissus de rongeurs et humain.

Side nav buttonsContactPubPROJETSEQUIPESAbout
Présentation l Acces l Thématiques l Publications l Projets l Sommaire
Nb. de visites depuis le 01/01/2003