Doctorat
CDD · Thèse · 36 mois Bac+5 / Master IRD · Paris (France)
Date de prise de poste : 1 octobre 2023
Mots-Clés
deep learning microbiome signature diagnostic maladies cardiovasculaires souches
Description
Caractérisation par apprentissage profond de souches bactériennes impliquées dans l’évolution péjorative des maladies cardiométaboliques
L’Institut de Recherche pour le Développement (IRD) et GMT Science recherchent un doctorant dans le cadre d’une thèse financée par la région Ile-de-France. Le sujet proposé porte sur la recherche de signature microbiomique de pathologies cardio-vasculaire à base d’apprentissage profond (Deep Learning), jusqu’au niveau souche et gène.
1 CONTEXTE ET PROBLEMATIQUE
L’évolution fulgurante de l'obésité sévère dans le monde est à l’origine de grands défis en santé puisqu'elle est un facteur de risque déterminant des comorbidités potentiellement délétères telles que les maladies cardiométaboliques (CMD) [1]. Celles-ci représentent à elles seules 20% des décès en Europe [2] et touchent encore plus les pays en développement [3]. L’émergence de ces maladies met en avant d’une part la nécessité de politiques de prévention plus efficaces, d’autre part l’importance de l’amélioration de la réponse au traitement : dans les deux cas, la création de modèles prédictifs de leur évolution apparait comme un enjeu majeur. Outre les facteurs de risque connus (antécédents familiaux, âge, sexe, pression artérielle, tabagisme, lipides sanguins, adiposité et même diabète de type-2), un quart du risque de MCV reste inexpliqué.
Il est maintenant prouvé que le microbiote intestinal joue un rôle crucial dans le maintien ou la modification de la santé de l'hôte [4, 5]. Notamment, nous avons démontré l’importance de la diversité microbienne dans celle- ci [4, 6] ainsi que son rôle déterminant lors d’interventions diététiques [7] ou chirurgicales [8, 9] et enfin l’impact des médicaments sur sa composition [10, 11]. Nous avons également développé des pipelines bio- informatiques et d’analyse [12-14] mais aussi des méthodologies originales permettant de mieux caractériser la composition du microbiote intestinal [15], la reconstruction des relations inter-espèce au sein des écosystèmes microbiens [16], ainsi que l’identification de signatures prédictives interprétables [17].
Il a été démontré que la qualification du microbiome au niveau des souches, le niveau taxonomique le plus spécifique, peut permettre la découverte de biomarqueurs spécifiques impossibles à identifier dans les niveaux taxonomiques supérieurs [18, 19]. Par exemple, la présence d'un seul gène bactérien peut avoir un impact significatif sur le phénotype du patient, comme c'est le cas d'E. coli chez les patients atteints de maladie inflammatoire de l'intestin qui développent un cancer du côlon [19]. Il est pour cela important de disposer de catalogues de souches spécifiques permettant de quantifier avec précision leurs profils d’abondance. Ceux- ci peuvent ensuite être utilisés pour entrainer des modèles de machine learning (ML) pouvant classifier de manière plus robuste les phénotypes des patients.
Bien que l'intérêt pour la caractérisation des souches microbiennes soit très élevé et que des progrès importants aient été réalisés [20, 21], des catalogues spécifiques et complets de souches à haute résolution ne sont toujours pas disponibles. En effet, les méthodes actuelles se basent sur l’identification d’ensembles de gènes marqueurs [20] ou bien des catalogues de gènes [5, 13] desquels seulement un faible pourcentage est associé aux espèces métagénomiques [15]. D’autres approches se basant sur l'assemblage de génomes à partir de métagénomes restent très complexes dans le contexte du microbiome où l'ADN de centaines d'espèces bactériennes est séquencé simultanément [22, 23]. Plus récemment, des approches aidées par les avancés dans le domaine du deep learning (DL) ont été proposés et ont démontré des résultats satisfaisants [24, 25]. Cependant, malgré l’amélioration du binning des souches, la quantification de leur abondance pour des applications de classification reste un challenge et n’est à ce jour pas résolu.
2 HYPOTHESES ET OBJECTIFS
Au vu des observations que nous avons pu faire lors des nombreux projets de recherche, mais aussi d’une analyse approfondie de la littérature nous avons émis l’hypothèse suivante : Le développement d’approches basé sur le deep learning maximisant simultanément la tache de classification des séquencés au niveau des souches (i.e. le binning) et celle de l’inférence des profils d’abondance, permettrait de constituer des catalogues robustes utilisables dans un environnement de tests cliniques.
L’objectif de ce projet doctoral est de développer de nouvelles approches hybrides basé sur le deep learning et la bioinformatique pour constituer des catalogues de gènes et de souches hautement résolutifs. Nous partirons d’architectures existantes déjà publiés, à savoir l’approche VAMB basé sur les autoencodeurs variationnels pour le binning métagénomique et l’approche SemiBin semi-supervisé qui utilise des réseaux neuronaux siamois et exploite les informations contenues dans les génomes de référence pour améliorer le binning. Ces réseaux vont être incrémentés de modules spécifiques dédiés à l’inférence des abondances des souches bactériennes en partant de données simulées avec des fonctions de pertes spécifiques. Enfin dans le contexte d’une approche hybride nous utiliserons également des outils bio-informatiques (tels que des assembleurs et aligneurs) pour explorer leur impact dans cette tâche complexe d’apprentissage. Notre méthode sera évaluée à l’aide de larges ensembles de données métagénomiques, simulés finement à partir de génomes connus provenant de la base MGnify [26], de données publiques [27] et propriétaires et sera comparé aux méthodes de l’état de lart à base de références ou pas [15, 20, 24, 25]. GMT Science mettra à disposition de très larges quantités de données métagénomiques curées en termes d’annotations. Actuellement, plus de 20 000 échantillons métagénomiques sont présents dans leur base. A cela s’ajoutent des données internes issus de patients couvrant un large spectre phénotypique. Les données ainsi quantifiées, seront également analysé dans leur capacité prédictive des phénotypes cliniques avec l’utilisation de méthodes de modélisation interprétables de Machine Learning [17], développés au laboratoire (IRD).
3 LE CONSORTIUM
UMMISCO/IRD. L'Institut de la Recherche pour le Développement (IRD) est un établissement public français qui porte une démarche originale de recherche, d’expertise, de formation et de partage des savoirs au bénéfice des territoires et pays qui font de la science et de l’innovation un des premiers leviers de leur développement. L'Unité de Modélisation Mathématique et Informatique des Systèmes Complexes (UMMISCO) a sept cotutelles universitaires dont Sorbonne Université (SU). Integromics est une équipe d’UMMISCO composé de chercheurs et d’ingénieurs ayant pour objectif la modélisation et l’analyse des données biomédicales, notamment par des approches bioinformatiques, de Machine Learning (ML) et de statistiques dans une perspective translationnelle. La thèse sera dirigée par E Prifti.
GMT SCIENCE est une société Française, situé à Paris 15eme. Elle se spécialise dans l’étude du microbiote intestinal à visé clinique. Son objectif est de développer des tests de diagnostic, prescrits par les médecins pour compléter le tableau clinique des patients. C’est dans ce contexte que le partenariat avec UMMISCO/Integromics se fait dans l’objectif d’approcher l’expertise en modélisation intégrative du microbiote intestinal, calcul scientifique et intelligence artificielle des chercheurs de UMMISCO avec l’expertise en développement de tests diagnostiques GMT SCIENCE. Dans le cadre de ce projet de thèse l’entreprise sera représentée par son Directeur Technique, Raynald de Lahondès (PhD).
-
Collaboration, N.C.D.R.F., Trends in adult body-mass index in 200 countries from 1975 to 2014: a pooled analysis of 1698 population-based measurement studies with 19.2 million participants. Lancet, 2016. 387(10026): p. 1377-1396.
-
Nichols, M., et al., Cardiovascular disease in Europe 2014: epidemiological update. Eur Heart J, 2014. 35(42): p. 2929.
-
Ezzati, M. and E. Riboli, Behavioral and dietary risk factors for noncommunicable diseases. N Engl J Med, 2013. 369(10): p. 954-64.
-
Le Chatelier, E., et al., Richness of human gut microbiome correlates with metabolic markers. Nature, 2013. 500(7464): p. 541-6.
-
Qin, J., et al., A human gut microbial gene catalogue established by metagenomic sequencing. Nature, 2010. 464(7285): p. 59-65.
-
Qin, N., et al., Alterations of the human gut microbiome in liver cirrhosis. Nature, 2014. 513(7516): p. 59-64.
-
Cotillard, A., et al., Dietary intervention impact on gut microbial gene richness. Nature, 2013. 500(7464): p. 585-8.
-
Al Assal, K., et al., Gut Microbiota Profile of Obese Diabetic Women Submitted to Roux-en-Y Gastric Bypass and Its Association with Food Intake and Postoperative Diabetes Remission. Nutrients, 2020. 12(2).
-
Aron-Wisnewsky, J., et al., Major microbiota dysbiosis in severe obesity: fate after bariatric surgery. Gut, 2019. 68(1): p. 70-82.
-
Vieira-Silva, S., et al., Statin therapy is associated with lower prevalence of gut microbiota dysbiosis. Nature, 2020. 581(7808): p. 310-315.
-
Forslund, K., et al., Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota. Nature, 2015. 528(7581): p. 262-266.
-
Prifti, E., E. Le Chatelier, and N. Pons, Quantitative metagenomics: from reads to
biomarkers, in European Conference on Computational Biology (ECCB’14). 2014:
Strasbourg.
-
Li, J., et al., An integrated catalog of reference genes in the human gut microbiome.
Nat Biotechnol, 2014. 32(8): p. 834-41.
-
14. Arumugam, M., et al., Enterotypes of the human gut microbiome. Nature, 2011. 473(7346): p. 174-80.
15. Nielsen, H.B., et al., Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes. Nat Biotechnol, 2014. 32(8): p. 822-8.
16. Affeldt, S., et al., Spectral consensus strategy for accurate reconstruction of large biological networks. BMC Bioinformatics, 2016. 17(Suppl 16): p. 493.
17. Prifti, E., et al., Interpretable and accurate prediction models for metagenomics data. Gigascience, 2020. 9(3).
18. Palm, N.W., et al., Immunoglobulin A coating identifies colitogenic bacteria in inflammatory bowel disease. Cell, 2014. 158(5): p. 1000-1010.
19. Arthur, J.C., et al., Intestinal inflammation targets cancer-inducing activity of the microbiota. Science, 2012. 338(6103): p. 120-3.
20. Blanco-Miguez, A., et al., Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4. Nat Biotechnol, 2023.
21. Almeida, A., et al., A unified catalog of 204,938 reference genomes from the human gut microbiome. Nat Biotechnol, 2021. 39(1): p. 105-114.
22. Ayling, M., M.D. Clark, and R.M. Leggett, New approaches for metagenome assembly with short reads. Brief Bioinform, 2020. 21(2): p. 584-594.
23. Lapidus, A.L. and A.I. Korobeynikov, Metagenomic Data Assembly - The Way of Decoding Unknown Microorganisms. Front Microbiol, 2021. 12: p. 613791.
24. Pan, S., et al., A deep siamese neural network improves metagenome-assembled genomes in microbiome datasets across different environments. Nat Commun, 2022. 13(1): p. 2326.
25. Nissen, J.N., et al., Improved metagenome binning and assembly using deep variational autoencoders. Nat Biotechnol, 2021. 39(5): p. 555-560.
26. Gurbich, T.A., et al., MGnify Genomes: A Resource for Biome-specific Microbial Genome Catalogues. J Mol Biol, 2023: p. 168016.
27. Pasolli, E., et al., Accessible, curated metagenomic data through ExperimentHub. Nat Methods, 2017. 14(11): p. 1023-1024.
Candidature
Procédure :
Date limite : None
Contacts
Edi Prifti & Raynald de Lahondès
phNOSPAMd-ird@gmt.bio
Offre publiée le 6 juillet 2023, affichage jusqu'au 1 octobre 2023