Enrichment analysis based on GNN

 Stage · Stage M2  · 6 mois    Bac+5 / Master   LBI/CNRGH/CEA · evry (France)

 Date de prise de poste : 1 mars 2024

Mots-Clés

IA, GNN, analyse d'enrichissement, PPI

Description

Enrichissement des réseaux d’interaction : comparaison entre les approches statistiques et les approches basées sur les GNNs

 

Le Centre National de Recherche en Génomique Humaine (CNRGH) du Commissariat à l'Energie Atomique (CEA), localisé au sein du Genopole d'Evry, a comme objectif principal de faire avancer la recherche en génétique des maladies humaines.

A cette fin, le CNRGH a développé des laboratoires et des plateformes technologiques de pointe en génomique. Les technologies disponibles au CNRGH vont de plateformes de génotypage à haut débit complètement intégrées, à des plateformes de séquençage nouvelle-génération. Les activités incluent des études d'association génome entier, d'expression pan-génomiques, épigénétiques, de génomique fonctionnelle et de séquençage génome entier.

Au sein du Laboratoire de Bio-informatique et d’Informatique du CNRGH/CEA, nous recherchons un étudiant, actuellement en Master 2, pour effectuer un stage de recherche d’environ 56 mois qui débutera  2024. Le stage, dont le détail est décrit ci-dessous, se déroulera dans un contexte dédié aux développement de solutions d’analyse associé aux données génomiques issues de grandes cohortes.  Les candidatures (incluant cv et relevés de notes) sont à envoyer à l’adresse suivante : Mallek.Mziou@cea.fr

Encadrement

 — Mallek Mziou, Ingénieur chercheur en informatique, CEA/CNRGH/DRF

 — Vincent Meyer, Chef du laboratoire LBI, CEA/CNRGH/DRF

Mots clés

Algorithmique, apprentissage en profondeur, réseaux biologiques, prédiction des interactions protéiques, analyse d’enrichissement,

Contexte 

Les progrès récents des technologies expérimentales à haut débit ont élargi la quantité de données génomique en biologie. Ces larges volumes de données, issues de contextes expérimentaux hétérogènes et complémentaires, sont aujourd’hui employés pour tenter de caractériser l'importance des interactions dans les processus biologiques, notamment dans le cadre de l’expression du Génome.  La structuration de l’information pour son intégration, sa consultation, et son interprétation, représente aujourd’hui un challenge majeur dans le monde de la Génomique. Une partie de l’interprétation de ces données s’appuie sur l’exploitation de réseaux biologiques, qui peuvent être ainsi modélisés en partie sous forme de nœuds et d’arêtes. Citons comme exemples: les réseaux de régulation des gènes, les réseaux d’interaction protéine-protéine, etc…

Bien que l’utilisation des graphes offre une représentation simple et intuitive, l’analyse et l’enrichissement des réseaux biologiques demeure une tâche complexe et un axe de recherche émergent.

Dans la littérature, de nombreux systèmes d’exploitation de graphes (Graph mining) ont été conçus pour apporter un support aux biologistes, en capturant des interactions complexes ou inférant de nouveaux réseaux. Ces systèmes sont souvent basés sur des approches probabilistes classiques [1,2]. 

Récemment, au sein du CNRGH, une nouvelle méthode d’analyse d’enrichissement basée sur des GNNs (Graphical Neural Networks) a été proposée pour répondre à cette question [3]. Cette nouvelle méthode se focalise sur les interactions entre les protéines. A fin de l’évaluer, un besoin émergent est de proposer une approche statistique équivalente.

Objectifs du stage

Dans un premier temps, le stage consistera en une étude bibliographique des travaux existant. Il s’agira ensuite d’évaluer les méthodes basées sur les GNN. Cela se traduira notamment par l’implémentation d’un test statistique équivalent, pour effectuer une étude comparative afin de comprendre mieux l’intérêt des modèles GNN dans ce contexte.

Références

[1] PACZKOWSKA, Marta, BARENBOIM, Jonathan, SINTUPISUT, Nardnisa, et al. Integrative pathway enrichment analysis of multivariate omics data. Nature communications, 2020, vol. 11, no 1, p. 1-16.

[2] REIMAND, Jüri, ISSERLIN, Ruth, VOISIN, Veronique, et al. Pathway enrichment analysis and visualization of omics data using g: Profiler, GSEA, Cytoscape and EnrichmentMap. Nature protocols, 2019, vol. 14, no 2, p. 482-517.

[3] MUZIO, Giulia, O’BRAY, Leslie, et BORGWARDT, Karsten. Biological network analysis with deep learning. Briefings in Bioinformatics, 2020.

[4] SCARSELLI, Franco, GORI, Marco, TSOI, Ah Chung, et al. The graph neural network model. IEEE Transactions on Neural Networks, 2008, vol. 20, no 1, p. 61-80.

 

Candidature

Procédure : Envoyer un mail à mmziou@cnrgh.fr

Date limite : 30 janvier 2024

Contacts

Mallek Mziou

 maNOSPAMllek.mziou@cea.fr

Offre publiée le 23 octobre 2023, affichage jusqu'au 30 janvier 2024