Mots-Clés
graphe de pangénome
diversité génétique
génotypage
inférence d'haplotype
Description
Une des approches les plus utilisées pour étudier la diversité génétique au sein d’une ou plusieurs espèces est basée sur la comparaison de données de séquençage d’un ensemble d’individus représentatif de cette diversité (technologie « short/long reads ») avec un génome de référence. Cependant, cette méthode présente des limites, notamment le fait de ne pas détecter des variations absentes du génome de référence. Cela a conduit à un changement progressif de paradigme, du concept de génome à celui de pangénome.
Le pangénome regroupe l’ensemble des séquences présentes au sein d’une ou plusieurs espèces, incluant celles partagées par tous les individus (“core genome”) et celles présentes uniquement chez certains individus (« dispensable genome »). La pangénomique constitue une approche alternative intéressante pour caractériser, plus exhaustivement, la diversité génétique, notamment à travers l’utilisation de graphes de pangénomes. Si plusieurs outils sont actuellement disponibles pour construire ces graphes à partir de génomes complets, très peu d’approches existent pour les « enrichir » à partir de données de re-séquençage de nouveaux individus (“longs »/ »short » reads”) et inférer la structure des individus (haplotype).
Les principales missions de l’apprenti seront de :
- Réaliser un état de l’art sur les outils, disponibles en 2025, (1) pour aligner des données de séquençage contre un graphe de pangénome et (2) pour inférer la structure des génomes des individus à partir d’un pangénome - année 1
- Tester le premier outil développé dans le cadre d’un stage précédent sur un jeu de données réel (graphe complet et données de séquençage sur une centaine d’individus) pour évaluer sa robustesse - année 1
- Développer les briques logicielles nécessaires pour inférer les haplotypes de grands nombres d’individus à partir du graphe de pangénome en prenant les riz asiatique et africain puis l’Homme comme preuves de concept - année 1-2
L’apprentissage se fera sous la direction de Christine Tranchant-Dubreuil et Camille Carrette au sein de l’UMR DIADE à l’Institut de Recherche pour le Dévelopement de Montpellier. Vous intégrerez l’équipe « PANgenome, Evolution et ECosytem » (PANEEC) avec une forte expertise en bioinformatique, génomique et pangénomique. Cette équipe s’intéresse notamment à la topologie des graphes de pangénomes, en particulier à leur structure (et les métadonnées associées), en développant des approches et outils pour manipuler, annoter et visualiser des graphes. Vous évoluerez de plus au sein du plateau bioinformatique i-Trop avec une forte expertise en développement de logiciels bioinformatiques (méthodes Agile, GIT, workflows snakemake, containers singularity, science reproductible et ouverte) sur lesquels vous pourrez vous appuyer.
Vous avez développé les compétences suivantes :
- Connaissances générales des approches bioinformatiques pour l’analyse de données de génomique
- Connaissance générale en Unix/Linux, langage Python ou similaire (Rust,…)
- Connaissance de l’anglais technique et scientifique du domaine,
- Connaissances de base en biologie
- Des compétences en statistique seront appréciées.
Vous faites preuve des qualités humaines suivantes :
- Goût pour le travail en équipe dans un milieu multidisciplinaire et le partage de connaissances
- Autonomie, rigueur et sens de l’initiative
- Adaptabilité technique et thématique / capacité à s’adapter face à un public de non spécialistes
- Sens de l’organisation et de planification de ses activités en intégrant les contraintes externes.
Vous êtes titulaire d’un diplôme de niveau 6 (Bac +3) et êtes admis en Master Bio-informatique dans le cadre d’une modalité d’apprentissage.
Offre complète : https://emploi-recrutement.ird.fr/offre-de-emploi/emploi-contrat-d-apprentissage-master-bio-informatique-f-h-_437.aspx