Thèse financée - Algorithmique des séquences pour la caractérisation de variations structurales

 CDD · Thèse  · 36 mois    Bac+5 / Master   IRISA - Inria, équipe Genscale · Rennes (France)

 Date de prise de poste : 1 octobre 2024

Mots-Clés

algorithmique des séquences développement logiciel données de séquençage variants génomiques variants de structure alignement de séquences analyse de séquences

Description

Titre : Développement de méthodes bioinformatiques pour la caractérisation des variations structurales dans les génomes avec des données linked-read

Co-encadrement :

  • Claire Lemaitre, CR Inria (HDR), Equipe Genscale, Inria/IRISA, Campus de Beaulieu, 35042 Rennes
  • Claire Mérot, CR CNRS, UMR 6553 ECOBIO, Campus de Beaulieu, 35042 Rennes

Contexte :

Une question fondamentale en biologie est d’interpréter les variations entre les génomes aussi bien pour comprendre l’évolution des espèces, que pour conserver la biodiversité et optimiser l’utilisation des ressources naturelles. Les progrès du séquençage ont mis en valeur la prévalence des variations de structure (SVs) du génome (segments d'ADN dupliqués, supprimés, inversés ou déplacés) qui couvrent 5 à 10 fois plus de bases dans le génome que les mutations ponctuelles analysées couramment. C’est l’essor du séquençage de 3ème génération (lectures longues) qui a permis ces 5 dernières années d’enfin caractériser et cataloguer toute la gamme de SVs dans de nombreux génomes. Mais cette technologie reste chère et cette caractérisation est limitée souvent à un faible nombre d’individus ou à des espèces modèles, telles que l’homme. Une nouvelle technologie de séquençage permet de baisser les coûts en séquençant simultanément des centaines d’individus avec une approche « linked-reads » (lectures courtes associées à des barcodes donnant une information longue distance)[1]. Si cette technologie est extrêmement prometteuse pour les études à l’échelle des populations, l’approche par barcodes rend les méthodes existantes pour les longues lectures inadaptées et nécessite le développement de nouvelles méthodes informatiques pour détecter et analyser les SVs.

Sujet :

L’objectif de ce doctorat sera de développer des méthodes de détection et génotypage des SVs combinant l’information de barcodes et de séquence des linked-reads, puis de tester les outils développés sur des données réelles issues des recherches empiriques en biologie afin de répondre aux questions suivantes. Quelle est la précision et la puissance de détection par données linked-reads pour différentes gammes et types de variations génomiques structurales ? Comment optimiser ces outils pour l’application à l’échelle de grands jeux de données (espèces, populations) d’une part et à des variants complexes d’autre part ?

Le ou la doctorant·e bénéficiera de l’expertise et des données disponibles dans les deux équipes d’accueil et leurs collaborateurs. L’équipe Genscale à l’IRISA (rattachement principal), avec Claire Lemaitre, possède une forte expertise sur les méthodes de détection et d’analyse des SVs [2] et a déjà initié des développements sur ce type de données linked-reads avec la librairie C++ LRez [3] permettant notamment l’indexation par barcode de ces données. Ces données étant très volumineuses, cette structure de données dédiée est un atout pour le développement de méthodes d’analyses efficaces en temps et en mémoire. Au sein de l’équipe Evo-Adapt à ECOBIO (rattachement secondaire), Claire Mérot, étudie l’impact des SVs sur l’adaptation au changement climatique des insectes [4] avec le soutien d’un projet ERC-Stg. Elle a généré des données de re-séquençage par Haplotagging (linked-reads) et par lectures longues pour plusieurs populations de mouches du varech. Ces données sont inédites et idéales pour une évaluation fine et réaliste des performances des méthodes développées en comparaison avec la stratégie plus coûteuse par lectures longues.

Approches méthodologiques et techniques :

Les méthodes développées seront basées sur l’algorithmique du texte et des graphes (alignement de séquences, parcours de graphes de séquences) ainsi que sur les structures d’indexation de séquences. Les logiciels seront implémentés en Python, C++ ou Rust. Le développement méthodologique sera guidé et évalué par les applications et analyses sur données réelles.

 

Bibliographie

[1] Haplotype tagging reveals parallel formation of hybrid races in two butterfly species, J Meier et al, PNAS, 2021, doi:10.1073/pnas.2015005118
[2] SVJedi-graph: improving the genotyping of close and overlapping structural variants with long reads using a variation graph, Sandra Romain et Claire Lemaitre. Bioinformatics, 2023, doi:10.1093/bioinformatics/btad237
[3] LRez: a C++ API and toolkit for analyzing and managing Linked-Reads data. P Morisse, C Lemaitre, F Legeai. Bioinformatics Advances, 2021, doi :10.1093/bioadv/vbab022
[4] Locally adaptive inversions modulate genetic variation at different geographic scales in a seaweed fly. C Mérot et al. Mol Biol Evo, 2021, doi:10.1093/molbev/msab143.

Candidature

Procédure : Envoyer un mail à Claire Lemaitre avec un CV et une lettre de motivation.

Date limite : 15 mai 2024

Contacts

Claire Lemaitre

 clNOSPAMaire.lemaitre@inria.fr

 https://team.inria.fr/genscale/job-offers/phd-offer-development-of-bioinformatics-methods-for-characterising-structural-variations-in-genomes-using-linked-read-data/

Offre publiée le 24 avril 2024, affichage jusqu'au 31 mai 2024