Stage M2 en bioinformatique : classification métagénomique pour étudier la translocation microbienne

 Stage · Stage M2  · 6 mois    Bac+5 / Master   LaBRI, Université de Bordeaux · Talence (France)

 Date de prise de poste : 1 février 2025

Mots-Clés

métagénomique, classification de lectures, graphe de De Bruijn coloré

Description

Classification métagénomique pour étudier la translocation microbienne

Localisation

Le stage de recherche en bioinformatique se déroulera au sein du Laboratoire Bordelais de Recherche en Informatique (LaBRI), et plus précisément dans l’équipe BKB (Bench to Knowledge and Beyond) qui a une excellente expertise sur l’analyse de données biologiques massives.

Encadrants

Raluca Uricaru (MCF Université de Bordeaux, LaBRI) et Antonin Colajanni (2ème année de thèse BPH et LaBRI, Université de Bordeaux)

Contexte

Dans ce stage nous allons nous intéresser au phénomène de la translocation microbienne par des approches d’analyse métagénomique. La translocation microbienne se produit lorsque des bactéries ou autres micro-organismes migrent de l'intestin vers le sang en raison d'une altération de la barrière intestinale. Ce phénomène est significatif car il peut entraîner une activation immunitaire persistante, potentiellement affectant l'efficacité des vaccins ou des traitements.

La translocation peut être étudiée en utilisant des stratégies de métagénomique ou de métatranscriptomique, qui sont couramment appliquées sur des données spécifiquement produites dans ce contexte : en ciblant les séquences non humaines lors de l'expérience. Cependant, un défi majeur dans l'étude de la translocation consiste à réutiliser les données de cohortes de vaccination pour caractériser le métagénome. Dans ce contexte, la plupart des séquences proviennent du génome humain et les séquences non humaines sont en très faible quantité. Il est donc nécessaire d'éliminer d'abord les séquences humaines, ne laissant qu'une petite fraction (moins de 1%) de séquences non humaines pour une analyse plus approfondie.

Objectifs du stage

En partant d’une première étude explorant le lien entre la composition microbienne et les résultats des traitements contre le VIH dans le contexte de la translocation microbienne [1], nous allons tester et comparer diverses approches métagénomiques dans ce contexte sur plusieurs cohortes de vaccination.

Dans [1], Douek et al ont exploré cette question en utilisant une approche basée sur l'assemblage de contigs pour regrouper les lectures non humaines. En un premier temps, dans ce stage, nous visons à comparer ce type d'approches avec une méthode basée sur les k-mers (mots de tailles k), telle que celle implémentée par Kraken2 [2], qui classe les séquences directement au niveau des lectures (sans passer par une étape d’assemblage). Nos premiers résultats indiquent que bien que l'assemblage de contigs soit reconnu pour améliorer la sensibilité de la classification en réduisant les erreurs de similarité aléatoire, il laisse un grand nombre de lectures non classifiées. Kraken2, en revanche, est plus rapide et classe un plus grand nombre de séquences, mais il a tendance à produire plus de faux positifs. Afin d’évaluer précisément les avantages et les limitations de ces différentes stratégies, des premières expériences basées sur des simulations seront réalisées.

En un second temps, le stage sera dédié à l’exploration de travaux récents sur des outils dédiés à l'indexation de grandes collections de génomes de référence, tels que Fulgor [3], qui permettent l’assignation des lectures. L'index construit par Fulgor correspond à un graphe de De Bruijn compact et coloré, c'est à dire qu'il conserve la trace des génomes dont sont issus les k-mers. Dans notre contexte il est particulièrement intéressant que Fulgor implémente et permette de tester plusieurs stratégies pour l'alignement de lectures sur les génomes de référence et pour leur assignation. Cette troisième stratégie sera comparée aux approches classiques testée dans la première partie du stage, sur les données simulées préalablement produites, ainsi que sur les données réelles.

Profil recherché

Étudiant en Master 2 en bioinformatique (ou informatique mais avec une forte inclination pour la biologie) vous disposez des compétences suivantes:

  • Très bonne maîtrise du langage de programmation Python (ou C)
  • Appétence pour la programmation et les aspects algorithmiques pour l’analyse de séquences
  • Motivation pour évoluer dans un environnement pluridisciplinaire
  • Rigueur et esprit de synthèse, capacité à travailler en équipe.

Références

[1] Nganou-Makamdop K, Talla A, Sharma AA, et al. Translocated microbiome composition determines immunological outcome in treated HIV infection. Cell. 2021;184(15):3899-3914.e16.

[2] Wood, D.E., Lu, J. & Langmead, B. Improved metagenomic analysis with Kraken 2. Genome Biol 20, 257 (2019).

[3] Fan, J., Khan, J., Singh, N.P. et al. Fulgor: a fast and compact k-mer index for large-scale matching and color queries. Algorithms Mol Biol 19, 3 (2024).

Candidature

Procédure :

Date limite : 15 janvier 2025

Contacts

Raluca Uricaru (MCF Université de Bordeaux)

 raNOSPAMluca.uricaru@u-bordeaux.fr

Offre publiée le 22 octobre 2024, affichage jusqu'au 15 janvier 2025