Utilisation de l'IA pour l'amélioration de l’annotation des génomes

 Stage · Stage M2  · 6 mois    Bac+5 / Master   URGI · Versailles (France)  environ 550 euros net par mois

 Date de prise de poste : 1 janvier 2025

Mots-Clés

IA, apprentissage, annotation, génome

Description

Contexte :

 

Les éléments transposables (ET) sont des acteurs majeurs de la structure et de l'évolution des génomes des eucaryotes. Grâce à leur capacité à se déplacer et à se répliquer au sein des génomes, ils sont probablement les plus importants contributeurs à la plasticité du génome. Ils peuvent constituer jusqu’à 90% de l’ADN génomique, comme chez le maïs. Les éléments transposables sont souvent impliqués dans de nombreuses fonctions biologiques essentielles, telles que la floraison ou la défense contre les pathogènes chez les plantes, ou le placenta et le système immunitaire chez les mammifères. Ainsi le développement d’outils permettant leur annotation dans les génomes est un enjeu majeur. Leur détection et leur annotation sont considérées comme essentielles et doivent être entreprises dans tout projet de séquençage de génome.

 

La suite logicielle REPET (https://urgi.versailles.inra.fr/Tools/REPET) intègre des pipelines bioinformatiques dédiés à la détection, à l'annotation et à l'analyse des TE dans les séquences génomiques. Les deux principaux pipelines sont (i) TEdenovo, qui recherche les répétitions dispersées, construit des séquences consensus et les classe selon les caractéristiques des TE et (ii) TEannot, qui annote un génome avec une librairie de séquences d’ET de référence, par exemple celle produite par le pipeline TEdenovo.

REPET est en constante amélioration pour améliorer notamment la spécificité de son annotation c’est à dire réduire les faux positifs. Des benchmarks ont été développés pour mesurer les écarts d’annotations observés avec un outil par rapport à une référence.

 

Les ET ont des longueurs de séquence variables allant d’une centaine à des milliers de paires de base. Pour se déplacer dans un génome, ils ont besoin de protéines pour transposer : des enzymes de réplication, de mobilité et d’intégration ainsi qu’un site où s’intégrer. Plusieurs classifications des ET existent (Jurka et al., 2005 ; Wicker et al., 2007 ; Piégu et al., 2015 ; Arkhipova, 2017). En fonction de leurs différents mécanismes de transposition, Wicker et al. ont classés les ET à six niveaux : la classe, la sous-classe, l’ordre, la superfamille, la famille et enfin la sous-famille.

 

Selon leur classification les éléments transposables peuvent avoir des régions d’insertions préférentielles dans le génome. En effet, leur proximité avec des gènes, l’état de la chromatine, la méthylation locale ou la présence de marque épigénétique sont autant de marqueur impactant l’insertion de familles d’éléments transposables. Par ailleurs, la séquence prédite a de nombreuses caractéristiques comme : la longueur, les parties codantes présentent sur l'élément, la composition de l’élément (contenu en AT), la présence de site de fixation de facteur de transcription (TFBS).

 

Sur la base de ces connaissances une curation manuelle des prédictions d'annotation peut être envisagée mais est très coûteuse en temps humain et pourrait être automatisée.

 

Données disponibles :

 

Le laboratoire dispose d’une base de données des annotations d'éléments transposables (https://urgi.versailles.inrae.fr/repetdb/begin.do) qui pourrait être utilisée pour nourrir une IA  qui reconnaîtrait spécifiquement le contexte d’insertions et la séquence de l’élément pour en éliminer les erreurs d’annotation. 

 

Les données utilisées seront la taille de copies d’ET, la distance au gène le plus proche, la position en amont ou aval du gène, la position par rapport aux gènes (exon, intron, inter-gène), identité de séquence (copie/consensus), taux de GC, densité de la région en ET, classification.

 

Le stage est localisé à Versailles, dans l’Unité de Recherche en Génomique-Info (URGI) rattachée au département Biologie et Amélioration des Plantes (BAP) d’INRAE. L'URGI est une unité de recherche en bioinformatique qui développe des outils et des connaissances sur la structure, le fonctionnement et l'évolution des génomes des plantes. L’unité a également un savoir-faire sur la gestion des données, leurs traitements et analyses, et développe et maintient un système d’information sur la génomique et la génétique des plantes. Elle héberge la plateforme de bio-informatique des plantes PlantBioinfoPF et est membre de l’Institut Français de Bioinformatique (IFB).

Depuis plus de 15 ans l’URGI développe un savoir-faire et des outils pour l’annotation des éléments transposables dans les génomes eucaryotes. Aujourd’hui cette compétence reconnue internationalement, amène l’unité à participer à de très nombreux projets de séquençage et d’annotation dans des consortium internationaux.

 

Le stage est en co-encadrement entre 2 unités. L’URGI (Versailles) et la plateforme Colab.IA pour les phases d'entraînement des réseaux de neurones à développer.

 

Contacts :

URGI : Johann Confais : johann.confais@inrae.fr

CollabIA : Jocelyn De Goër De Herve : jocelyn.degoer@inrae.fr

 

Candidature

Procédure : envoyer un mail aux contacts avec CV et lettre de motivation

Date limite : 20 décembre 2024

Contacts

Johann Confais

 joNOSPAMhann.confais@inrae.fr

Offre publiée le 11 novembre 2024, affichage jusqu'au 20 décembre 2024