Doctorat

Revenir à la liste des offres d'emplois

CDD · Thèse · 36 mois Bac+5 / Master IRD · Paris (France)

Date de prise de poste : 1 octobre 2023

Mots-Clés

deep learning microbiome signature diagnostic maladies cardiovasculaires souches

Description

Caractérisation par apprentissage profond de souches bactériennes impliquées dans l’évolution péjorative des maladies cardiométaboliques

L’Institut de Recherche pour le Développement (IRD) et GMT Science recherchent un doctorant dans le cadre d’une thèse financée par la région Ile-de-France. Le sujet proposé porte sur la recherche de signature microbiomique de pathologies cardio-vasculaire à base d’apprentissage profond (Deep Learning), jusqu’au niveau souche et gène.

1 CONTEXTE ET PROBLEMATIQUE

L’évolution fulgurante de l'obésité sévère dans le monde est à l’origine de grands défis en santé puisqu'elle est un facteur de risque déterminant des comorbidités potentiellement délétères telles que les maladies cardiométaboliques (CMD) [1]. Celles-ci représentent à elles seules 20% des décès en Europe [2] et touchent encore plus les pays en développement [3]. L’émergence de ces maladies met en avant d’une part la nécessité de politiques de prévention plus efficaces, d’autre part l’importance de l’amélioration de la réponse au traitement : dans les deux cas, la création de modèles prédictifs de leur évolution apparait comme un enjeu majeur. Outre les facteurs de risque connus (antécédents familiaux, âge, sexe, pression artérielle, tabagisme, lipides sanguins, adiposité et même diabète de type-2), un quart du risque de MCV reste inexpliqué.

Il est maintenant prouvé que le microbiote intestinal joue un rôle crucial dans le maintien ou la modification de la santé de l'hôte [4, 5]. Notamment, nous avons démontré l’importance de la diversité microbienne dans celle- ci [4, 6] ainsi que son rôle déterminant lors d’interventions diététiques [7] ou chirurgicales [8, 9] et enfin l’impact des médicaments sur sa composition [10, 11]. Nous avons également développé des pipelines bio- informatiques et d’analyse [12-14] mais aussi des méthodologies originales permettant de mieux caractériser la composition du microbiote intestinal [15], la reconstruction des relations inter-espèce au sein des écosystèmes microbiens [16], ainsi que l’identification de signatures prédictives interprétables [17].

Il a été démontré que la qualification du microbiome au niveau des souches, le niveau taxonomique le plus spécifique, peut permettre la découverte de biomarqueurs spécifiques impossibles à identifier dans les niveaux taxonomiques supérieurs [18, 19]. Par exemple, la présence d'un seul gène bactérien peut avoir un impact significatif sur le phénotype du patient, comme c'est le cas d'E. coli chez les patients atteints de maladie inflammatoire de l'intestin qui développent un cancer du côlon [19]. Il est pour cela important de disposer de catalogues de souches spécifiques permettant de quantifier avec précision leurs profils d’abondance. Ceux- ci peuvent ensuite être utilisés pour entrainer des modèles de machine learning (ML) pouvant classifier de manière plus robuste les phénotypes des patients.

Bien que l'intérêt pour la caractérisation des souches microbiennes soit très élevé et que des progrès importants aient été réalisés [20, 21], des catalogues spécifiques et complets de souches à haute résolution ne sont toujours pas disponibles. En effet, les méthodes actuelles se basent sur l’identification d’ensembles de gènes marqueurs [20] ou bien des catalogues de gènes [5, 13] desquels seulement un faible pourcentage est associé aux espèces métagénomiques [15]. D’autres approches se basant sur l'assemblage de génomes à partir de métagénomes restent très complexes dans le contexte du microbiome où l'ADN de centaines d'espèces bactériennes est séquencé simultanément [22, 23]. Plus récemment, des approches aidées par les avancés dans le domaine du deep learning (DL) ont été proposés et ont démontré des résultats satisfaisants [24, 25]. Cependant, malgré l’amélioration du binning des souches, la quantification de leur abondance pour des applications de classification reste un challenge et n’est à ce jour pas résolu.

2 HYPOTHESES ET OBJECTIFS

Au vu des observations que nous avons pu faire lors des nombreux projets de recherche, mais aussi d’une analyse approfondie de la littérature nous avons émis l’hypothèse suivante : Le développement d’approches basé sur le deep learning maximisant simultanément la tache de classification des séquencés au niveau des souches (i.e. le binning) et celle de l’inférence des profils d’abondance, permettrait de constituer des catalogues robustes utilisables dans un environnement de tests cliniques.

L’objectif de ce projet doctoral est de développer de nouvelles approches hybrides basé sur le deep learning et la bioinformatique pour constituer des catalogues de gènes et de souches hautement résolutifs. Nous partirons d’architectures existantes déjà publiés, à savoir l’approche VAMB basé sur les autoencodeurs variationnels pour le binning métagénomique et l’approche SemiBin semi-supervisé qui utilise des réseaux neuronaux siamois et exploite les informations contenues dans les génomes de référence pour améliorer le binning. Ces réseaux vont être incrémentés de modules spécifiques dédiés à l’inférence des abondances des souches bactériennes en partant de données simulées avec des fonctions de pertes spécifiques. Enfin dans le contexte d’une approche hybride nous utiliserons également des outils bio-informatiques (tels que des assembleurs et aligneurs) pour explorer leur impact dans cette tâche complexe d’apprentissage. Notre méthode sera évaluée à l’aide de larges ensembles de données métagénomiques, simulés finement à partir de génomes connus provenant de la base MGnify [26], de données publiques [27] et propriétaires et sera comparé aux méthodes de l’état de lart à base de références ou pas [15, 20, 24, 25]. GMT Science mettra à disposition de très larges quantités de données métagénomiques curées en termes d’annotations. Actuellement, plus de 20 000 échantillons métagénomiques sont présents dans leur base. A cela s’ajoutent des données internes issus de patients couvrant un large spectre phénotypique. Les données ainsi quantifiées, seront également analysé dans leur capacité prédictive des phénotypes cliniques avec l’utilisation de méthodes de modélisation interprétables de Machine Learning [17], développés au laboratoire (IRD).

3 LE CONSORTIUM

UMMISCO/IRD. L'Institut de la Recherche pour le Développement (IRD) est un établissement public français qui porte une démarche originale de recherche, d’expertise, de formation et de partage des savoirs au bénéfice des territoires et pays qui font de la science et de l’innovation un des premiers leviers de leur développement. L'Unité de Modélisation Mathématique et Informatique des Systèmes Complexes (UMMISCO) a sept cotutelles universitaires dont Sorbonne Université (SU). Integromics est une équipe d’UMMISCO composé de chercheurs et d’ingénieurs ayant pour objectif la modélisation et l’analyse des données biomédicales, notamment par des approches bioinformatiques, de Machine Learning (ML) et de statistiques dans une perspective translationnelle. La thèse sera dirigée par E Prifti.

GMT SCIENCE est une société Française, situé à Paris 15eme. Elle se spécialise dans l’étude du microbiote intestinal à visé clinique. Son objectif est de développer des tests de diagnostic, prescrits par les médecins pour compléter le tableau clinique des patients. C’est dans ce contexte que le partenariat avec UMMISCO/Integromics se fait dans l’objectif d’approcher l’expertise en modélisation intégrative du microbiote intestinal, calcul scientifique et intelligence artificielle des chercheurs de UMMISCO avec l’expertise en développement de tests diagnostiques GMT SCIENCE. Dans le cadre de ce projet de thèse l’entreprise sera représentée par son Directeur Technique, Raynald de Lahondès (PhD).

Collaboration, N.C.D.R.F., Trends in adult body-mass index in 200 countries from 1975 to 2014: a pooled analysis of 1698 population-based measurement studies with 19.2 million participants. Lancet, 2016. 387(10026): p. 1377-1396.
Nichols, M., et al., Cardiovascular disease in Europe 2014: epidemiological update. Eur Heart J, 2014. 35(42): p. 2929.
Ezzati, M. and E. Riboli, Behavioral and dietary risk factors for noncommunicable diseases. N Engl J Med, 2013. 369(10): p. 954-64.
Le Chatelier, E., et al., Richness of human gut microbiome correlates with metabolic markers. Nature, 2013. 500(7464): p. 541-6.
Qin, J., et al., A human gut microbial gene catalogue established by metagenomic sequencing. Nature, 2010. 464(7285): p. 59-65.
Qin, N., et al., Alterations of the human gut microbiome in liver cirrhosis. Nature, 2014. 513(7516): p. 59-64.
Cotillard, A., et al., Dietary intervention impact on gut microbial gene richness. Nature, 2013. 500(7464): p. 585-8.
Al Assal, K., et al., Gut Microbiota Profile of Obese Diabetic Women Submitted to Roux-en-Y Gastric Bypass and Its Association with Food Intake and Postoperative Diabetes Remission. Nutrients, 2020. 12(2).
Aron-Wisnewsky, J., et al., Major microbiota dysbiosis in severe obesity: fate after bariatric surgery. Gut, 2019. 68(1): p. 70-82.
Vieira-Silva, S., et al., Statin therapy is associated with lower prevalence of gut microbiota dysbiosis. Nature, 2020. 581(7808): p. 310-315.
Forslund, K., et al., Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota. Nature, 2015. 528(7581): p. 262-266.
Prifti, E., E. Le Chatelier, and N. Pons, Quantitative metagenomics: from reads to

biomarkers, in European Conference on Computational Biology (ECCB’14). 2014:

Strasbourg.
1. Li, J., et al., An integrated catalog of reference genes in the human gut microbiome.
  
  Nat Biotechnol, 2014. 32(8): p. 834-41.

14. Arumugam, M., et al., Enterotypes of the human gut microbiome. Nature, 2011. 473(7346): p. 174-80.

15. Nielsen, H.B., et al., Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes. Nat Biotechnol, 2014. 32(8): p. 822-8.

16. Affeldt, S., et al., Spectral consensus strategy for accurate reconstruction of large biological networks. BMC Bioinformatics, 2016. 17(Suppl 16): p. 493.

17. Prifti, E., et al., Interpretable and accurate prediction models for metagenomics data. Gigascience, 2020. 9(3).

18. Palm, N.W., et al., Immunoglobulin A coating identifies colitogenic bacteria in inflammatory bowel disease. Cell, 2014. 158(5): p. 1000-1010.

19. Arthur, J.C., et al., Intestinal inflammation targets cancer-inducing activity of the microbiota. Science, 2012. 338(6103): p. 120-3.

20. Blanco-Miguez, A., et al., Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4. Nat Biotechnol, 2023.

21. Almeida, A., et al., A unified catalog of 204,938 reference genomes from the human gut microbiome. Nat Biotechnol, 2021. 39(1): p. 105-114.

22. Ayling, M., M.D. Clark, and R.M. Leggett, New approaches for metagenome assembly with short reads. Brief Bioinform, 2020. 21(2): p. 584-594.

23. Lapidus, A.L. and A.I. Korobeynikov, Metagenomic Data Assembly - The Way of Decoding Unknown Microorganisms. Front Microbiol, 2021. 12: p. 613791.

24. Pan, S., et al., A deep siamese neural network improves metagenome-assembled genomes in microbiome datasets across different environments. Nat Commun, 2022. 13(1): p. 2326.

25. Nissen, J.N., et al., Improved metagenome binning and assembly using deep variational autoencoders. Nat Biotechnol, 2021. 39(5): p. 555-560.

26. Gurbich, T.A., et al., MGnify Genomes: A Resource for Biome-specific Microbial Genome Catalogues. J Mol Biol, 2023: p. 168016.

27. Pasolli, E., et al., Accessible, curated metagenomic data through ExperimentHub. Nat Methods, 2017. 14(11): p. 1023-1024.

Candidature

Contacts

Edi Prifti & Raynald de Lahondès

phNOSPAMd-ird@gmt.bio

https://doc.gmt.bio/s/bBYzLK2gETKomKq

Offre publiée le 6 juillet 2023, affichage jusqu'au 1 octobre 2023