Stagiaire master 1

 Stage · Stage M1  · 5 mois    Bac+4   IRD UMR DIADE · Montpellier (France)

Mots-Clés

pangénome, annotation, graphe

Description

Développement d'un pipeline pour l'extraction et l'annotation de séquences d'un graphe de pangénome - stage M1 bioinformatique

Le développement des technologies de séquençage nouvelle génération a entrainé l'essort de la pangénomique, qui offre une alternative intéressante et moins biaisée aux génomes de référence couramment utilisés (https://www.nature.com/articles/s41586-022-04808-9, https://link.springer.com/article/10.1186/s13059-023-02969-y)
Un pangénome est constitué d'un ensemble de génomes appartenant à une espèce ou à un groupe, et vise à en représenter la diversité. Ce pangénome peut être organisé sous forme de graphe variation, où les noeuds contiennent les séquences des génomes et les arêtes représentent les adjacences entre ces séquences. Cette représentation est plus compacte que l'ensemble des génomes complet, et décrit efficacement les relations entre les génomes (quelles régions sont identiques, où sont les variations).
De nombreux graphes ont été construit, et sont utilisés pour réaliser de l'appel de variant ou du génotypage par exemple. Cependant, il n'existe pas encore d'outil permettant d'ajouter facilement des annotations dans les graphes. Pourtant ces annotations donneraient du sens biologique aux séquences présente dans le graphe, et faciliteraient l'interprétation des variations que l'on y trouve.
Nous avons développé un outil de transfert d'annotation dans des graphes de pangénome, GrAnnoT (https://forge.ird.fr/diade/dynadiv/grannot), qui utilise l'annotation déjà existante d'un génome linéaire pour ajouter de l'information dans un graphe. Cependant un seul génome ne contient pas toutes les régions du graphes. Ainsi cette approche fournit une annotation incomplète du graphe.
Afin de palier cette limite et d'améliorer l'annotation du graphe, nous souhaitons ajouter une étape à GrAnnoT qui consisterait à :
    - récupérer les régions du graphe qui ne sont pas couvertes par le génome annoté, 
    - les fournir à un outil d'annotation ab initio, 
    - transférer ces nouvelles annotations dans le graphe pour compléter l'information déjà présente.
La première étape serait réalisée à l'aide d'un autre outil en développement dans notre équipe, Gratools, qui permet d'étudier les graphes de pangénome et d'en extraire des régions. L'étudiant ou l'étudiante devra donc réaliser un prototype de pipeline mettant en relation différents outils, permettant ainsi l'annotation de l'ensemble du graphe.
 

Candidature

Procédure : Envoyer un mail à nina.marthe@ird.fr

Date limite : None

Contacts

Nina Marthe

 niNOSPAMna.marthe@ird.fr

Offre publiée le 21 janvier 2025, affichage jusqu'au 21 mars 2025