|

|
La conception et la mise en uvre de méthodes et d'algorithmes issues de l'IA pour l'extraction de connaissances à partir de données biopuces et cliniques.
Contexte scientifique
Le développement du Programme Génome depuis 1990 a permis petit à petit létablissement de cartes génétiques et le séquençage complet de génomes de représentants des principaux groupes vivant [Bernot, 2001]. Dici fin 2003, il est vraisemblable que celui de lhomme sera achevé et déjà de nouveaux programmes sont en chantier pour ce qui sera lère de laprès-séquençage. Lun des chantiers scientifiques les plus enthousiasmants est celui qui consiste à établir les profils dexpression des ARN messagers à grande échelle.
La technologie des puces ADN permet lanalyse fonctionnelle des profils dexpression (on parle de ce fait du transcriptome) de milliers de gènes danimaux ou dhumains. Pour simplifier, sur chaque repère dune puce ADN est disposé un gène qui, mis en contact dun tissu, va plus ou moins sexprimer (dans le cas des puces pangénomiques que nous utilisons, des dizaine de milliers de gènes). Cette expression se traduira grâce à la fluorescence par une intensité de couleur du rouge (sur-exprimé) au vert (sous-exprimé) (cf. Figure 1 ci-dessous).

Figure 1 : Vue partielle dune puce ADN. Lintensité de la couleur rouge dun spot de la puce (resp. verte) traduit la sur-expression (resp. sous-expression) du gène en contact dun tissus par rapport à des conditions de référence.De nombreuses équipes de par le monde et en France [Le Journal du CNRS, 2001] utilisent aujourdhui cette technique pour identifier des familles de gènes regroupés en fonction du degré de similarité de leur expression selon différentes conditions expérimentales. On peut en effet faire des expérimentations sur différents individus, différents tissus dun même individu ou différents instants dans le temps dun même tissu. Ces expérimentations ayant pour objectif de dégager des profils dexpressions de gènes co-exprimés.Lalgorithme dEisen [Eisen et al. 1998] est lune des nombreuses techniques danalyse de données largement utilisée pour analyser des profils dexpression. La Figure 2 présente le type de résultat obtenu sur une des basés de données que nous utilisons. Ici les gènes sont en abscisse, plus ils sont rouges plus ils ont été exprimés. Les clusters A, B, C, D et E ont été ici manuellement sélectionnés. Ils regroupent des gènes qui présentent ici dans le temps des profils dexpression similaires. Il existe dautres techniques basées sur les cartes de Kohonen [Tamayo et al. 1999] ou le partitionnement de données [Heyer et al. 1999]. Des algorithmes dapprentissage supervisés ont aussi été utilisés pour analyser les profils dexpression : Machines à vecteurs de supports [Brown et al. 2000] ou analyse en composantes principales [Raychaudhuri et al. 2000] Figure 2: Les résultats de lalgorithme de Eisen [Eisen et al. 1998] pour le regroupement de gènes ayant les mêmes profils dexpression.La technologie des biopuces permet dextraire dans des conditions expérimentales données, des matrices dexpression de gènes (taux en ARN) suivant différentes expériences et différents instants expérimentaux.
Suivant la problématique quils étudient, les biologistes qui conduisent les expériences peuvent poursuivre différents objectifs : étudier la fonction de certains gènes dans une pathologie donnée à laide de gènes issus de tissus pour lequel le diagnostic a déjà été réalisé, diagnostiquer avec précision des pathologies à partir des données issues de biopuces, identifier des groupes de gènes dont le rôle est similaire sous certaines conditions expérimentales, modéliser le réseau de régulation génique sous-jacent à partir de groupes identifiés de gènes et de connaissances a priori, diagnostiquer avec précision des pathologies à partir des données issues de biopuces. Une très vaste majorité des analyse de données issues des bio-puces une centaine de plateformes existe aujourdhui se limitent à lidentification des gènes co-exprimés et laissent aux biologistes la tâche de leur caractérisation.
Projet scientifique
Au-delà du regroupement des gènes de mêmes profils dexpression sur les puces ADN (ou puces à ADN ou encore microarray)., le problème de la compréhension de ce qui caractérise les gènes qui possèdent le même profil dexpression est essentiel. Il est clair que pour aborder ce problème, les seules données des biopuces sont insuffisantes. De fait, lorsque les biologistes tentent de caractériser les gènes co-exprimés, ils utilisent de multiples bases de données accessibles via Internet : base de données darticles, base de données dannotations de gènes, base de données de séquences, base de données sur les EST, base de données sur les fonctions des gènes, etc.
Figure 3 : Questions des biologistes (en bas) et domaines de lIA permettant dapporter un élément de réponse à ces questions (en haut).
Problématique informatique: la génomique fonctionnelle de lobésité
Dans le cadre du présent projet, il sagit notamment de représenter les différentes transformations depuis les données brutes issues de la puce ADN, leur enrichissement par des données du domaines et enfin leur analyse par des algorithmes dapprentissage. Il sagit donc de:
- modéliser les multiples transformations dans le processus de fouille de données issues de puces ADN,
- définir la sémantique dun ensemble dopérateurs de transformation des données obtenues sous la forme de matrice de ratios dintensité (dimension, sélection dattribut, identification des variations significatives, discrétisation, traitement des données manquantes, etc.),
- mettre en uvre ces transformations dans le cadre dun environnement de fouille de données ouvert dédié au traitement des données issues de biopuces et où le processus danalyse puisse être explicitement mémorisé,
- concevoir différentes dextraction de connaissances à partir de données structurées (BD), semi-structurées (XML) ou de textes, intégration et fusion de données,
- concevoir et raffiner des algorithmes dapprentissage supervisés et non-supervisés pour la caractérisation des fonctions des gènes prenant en compte les connaissances du domaine définir des algorithmes dédiés à la visualisation des résultats.
Problématique biologique: la génomique fonctionnelle de lobésité
Lobésité est devenue la pathologie nutritionnelle la plus fréquente dans les pays industrialisés. Elle est maintenant considérée comme la pathologie dun organe, le tissu adipeux, et de ses relations avec les autres structures impliquées dans la mise en réserve et lutilisation dénergie : le muscle, le foie et le système nerveux central [Clement et al. 1996; Clement 2000]. Comme mentionné plus haut, nous collaborons avec léquipe du Dr. Karine Clément sur un projet détude génomique fonctionnelle de lobésité Les profils d'expression génique du tissu adipeux sont étudiés chez des individus obèses en situation de restriction calorique sévère. Lobjectif est danalyser les regroupements de gènes dont lexpression est modifiée par une restriction énergétique de courte durée (48h) et par une restriction calorique plus longue (un mois). Ces modifications géniques seront comparées à une situation où le tissu adipeux adresse au système nerveux central un message leptine de type jeûne métabolique chronique, cest à dire les situations dabsence de leptine chez les patients porteurs d'une mutation du récepteur de la leptine (cf infra). Chez le rongeur, le modèle du jeûne total chez des souris normales et dans différents modèles monogéniques de rongeurs porteurs d'altérations de la voie leptine et de la voie des mélanocortines sont utilisés. Les profils d'expression génique dans le tissu adipeux et d'autres tissus périphériques (foie, muscle) de rongeurs à l'état nourri et après 48h de jeûne sont à caractériser. Nous bénéficions, dans le cadre d'une collaboration de Karine Clément avec le laboratoire de G Barsh à l'Université de Stanford, d'un accès à des puces à ADN de haute densité comportant 18000 ADNc. Ces ADNc sont issus d'une banque de clones provenant d'un criblage de centaines de tissus chez la souris, et comportent vraisemblablement 20 à 30 % de redondance. Ils ont été séquencés. Ces puces ont été développées récemment et déjà utilisées dans le cadre de projets précédents chez l'homme et le rongeur. Si d'autres matériels de haute densité deviennent éventuellement disponibles en France, nous envisagerons de les utiliser également pour nos expériences
De même, lINSERM soutient ce type de recherche notamment à travers ses appels à projet AVENIR. Karine Clément à obtenu un projet INSERM-AVENIR sur la génomique fonctionnelle de lobésité où nous sommes responsable de la partie analyse de données. Le sous-projet consacré aux algorithmes de regroupement conceptuel est baptisé ObeLinks.
La fouille de données issues de Biopuces sorganise actuellement en France comme en témoigne la présentation de Michèle Sébag sur les activités de GafoPuces lors de la journée de présentation des AST du STIC.
Dans le cadre de lIMPGl'action nationale Informatique, Mathématiques et Physique pour la Génomique (IMPG) qui concerne une trentaine d'équipes et environ 500 chercheurs.) il existe plusieurs groupes dont les problématiques recoupent celles présentées dans la partie précédente de ce documentIl sagit dabord du groupe Analyse Statistique du Transcriptome (groupe AST dont les responsables sont Patrick ,Pierre Hilson, Jean-Pierre Nadal et Stéphane Robin) et du groupe Bases de Données, Interfaces et Ontologies (groupe BDIO dont les responsables sont Emmanuel Barillot Philippe Bessières François Rechenmann)Si de nombreuses équipes travaillent sur des données issues de biopuces, la singularité des travaux de léquipe IAPuces est dune par de se placer en aval des algorithmes de découverte de gènes co-exprimés, dutiliser des puces pangénomiques et enfin de recourir à une représentation multiples des gènes à différent niveau dabstraction (séquence, fonction, annotation, textes, articles, etc.). Il existe en effet près dune centaine de plate-formes logiciels universitaires ou commerciales disponible pour le regroupement de gènes co-exprimés (http://ihome.cuhk.edu.hk/~b400559/arraysoft.html). Il est donc important de trouver un positionnement stratégique par rapport à ces recherches.
En ce qui concerne la recherche sur lobésité, celle-ci connaît actuellement un développement important. Cet intérêt se justifie par la progression épidémique de la maladie, confirmée par un rapport de lOMS, et souligné par un expertise collective de lINSERM. Les équipes de recherche françaises font partie des groupes en pointe au niveau international dans le domaine tant en ce qui concerne, entre autres, la biologie cellulaire de ladipogenèse (Ailhaud, 1998), les facteurs impliqués dans la lipolyse (Lafontan, 1998), les mécanismes moléculaires de la dépense énergétique (Ricquier, 1998) que la génétique humaine (Froguel, 2000, Clément, 2000). Une collaboration étroite se poursuit avec G Barsh, pour l'accès aux bases de données de Stanford, la saisie des données ("Stanford Microrray Database") et l'évolution des modèles d'analyses. Dautres collaborations sont en uvre pour le traitement des puces.
Aspects Analyse: Projet OBELINKS INSERM-AVENIR
Nous avons développé un ensemble doutils pour la récolte des données. Il sagissait en particulier de récupérer automatiquement des informations issues de la base de données en ligne GeneOntology pour compléter la description des gènes. Nous avons dautre part conçu un programme permettant dextraire des connaissances sur les fonctions des gènes. Celui-ci est essentiel aux algorithmes de regroupement dobjets que nous utilisons [Bournaud, Courtine & Zucker, 2002]
Figure 4 : Schéma de la procédure danalyse des données issues des puces ADN dans ObeLinks Une fois les données extraites, des informations sur la fonction des gènes est récupérée automatiquement sur la base GO. Cette information est ensuite utilisée pour construire des regroupement fonctionnel pertinent de gènes regroupés selon leur profil dexpression
Les EST (Expressed Sequence Tags) n'ont aucune fonction biologique précise, ce sont de courtes séquences d'ADN utilisées pour "étiqueter" les gènes et permettre de décoder de longues séquences d'ADN.
Le projet de lEA3502 rassemble des compétences dans des domaines complémentaires : cliniques, biologiques et d'analyse d'information à travers un partenariat entre des enseignants chercheurs hospitaliers, des chercheurs de lIFR056, dunités INSERM, et implique la génopole parisienne (Montagne Sainte Geneviève).
Pendant la préparation du 6eme PRCD, lINSERM a annoncé comme lune de ses priorités lobésité et celle-ci est amené à être un sujet de recherche majeur dans la communauté européene.
C'est le Prof. Eric Clément qui coordonne la collaboration au niveau du LMDH. Un rappel des différents participants, de lagenda et des objectifs du projet est disponible à l'adresse suivante: http://www-poleia.lip6.fr/~zucker/Research/Granulab.htm
Le programme génome CNRS lancé au printemps 1997 et qui s'est terminé au printemps 2000 a fortement soutenu un axe "Développement Technologique" puisque 30% de ses ressources y auront été consacrées et pour l'essentiel pour soutenir 3 projets concernant la technologie des puces à ADN. Persuadé de l'importance grandissante de cette technologie à l'ère de l'après séquençage, le CNRS a lancé une nouvelle action intitulée "Puces à ADN" qui couvre la période octobre 2000 - octobre 2003. Cette action interdépartementale est dotée d'un budget annuel de 6 MF et a la volonté de soutenir des recherches dans trois domaines jugés importants : a) la bio-informatique associée à la conception des puces mais aussi au traitement des données expérimentales,b) les développements technologiques de nature à améliorer la construction mais également la détection des signaux, c) le développement des applications
La lecture des puces est réalisée grâce à la plate-forme de génomique fonctionnelle parisienne (Montagne Sainte-Geneviève, Laboratoire du Pr. C Jacq) qui dispose du matériel nécessaire à la lecture des plaques (scanner AXON). Une collaboration est en cours avec les groupes de D Langin (Insem U317) et H Vidal (Inserm U 449) pour les études chez l'homme et pour l'établissement de puces à cDNA tissus spécifiques à partir de bibliothèques de tissus de rongeurs et humain.
|
|
|