Stage Intégration de données OMICs chez les plantes par des approches sans-référence

 Stage · Stage M2  · 5 mois    Bac+5 / Master   IRD - Institut de Recherche pour le Développement · Montpellier (France)  minimum à 4,05 € par heure de stage

 Date de prise de poste : 1 février 2023

Mots-Clés

integration, omics, ngs, genotypage, association, kmer

Description

Proposition du stage en bioinformatique premier semestre 2024

Sujet : Intégration de données OMICs chez les plantes par des approches sans-référence

Avec le but de modéliser et de prédire les caractères phénotypiques intéressants chez les plantes, dans l'unité DIADE, on s'intéresse aux méthodes d’intégration de données génomiques, transcriptomiques et phénotypiques

La simplicité du k-mer offre un avantage pour l'intégration de multiples types de données, et pourrait potentiellement être utilisée pour les prédictions de caractères d’adaptation aux variations climatiques par exemple.  Des études d’association avec des k-mers ont montré une précision de prédiction au moins aussi élevée que celle de la méthode standard basée sur les SNP (polymorphisme d’un base)1. L’utilisation des k-mers dans la détection des régions/gènes différentiellement exprimés à aussi été prouvé sur l’humain2 et plus récemment dans notre laboratoire sur le modèle le riz. Utiliser ces approches sans référence, qui se basent sur les k-mers, sont intéressantes pour l'étude d’organismes non-modèles dont le génome de référence est incomplet ou inexistant et très prometteurs pour pouvoir faire de l'intégration.

 

L’objectif principal du stage sera d’identifier des modèles d'apprentissage et/ou méthodes efficaces de modélisation prédictive qui permettront d'intégrer des données génotypiques et transcriptomiques (déjà analysées indépendamment) et les données phénotypiques (climatiques et phénotypiques). Récemment, He et al, 20213 ont prédit des caractères quantitatifs chez le maïs. De multiples stratégies de machine learning tel que le NLP (“bag of words”) ont été implémentés et testés pour prédire le temps de floraison, l’angle de la feuille à partir des données k-mers. D’autres méthodes d’analyse multifactorielles pourront aussi être testées telles que NFM.  Différents types de données chez le riz sont disponibles dans notre laboratoire.

Le financement du master 2 est prévu dans le cadre du projet Km-Xplore de l’unité DIADE. Merci d’envoyer un CV et une lettre de motivation.

Compétences requises :

Compétences en programmation : bash, python, R

Maîtrise des systèmes Git et Unix

Bases en statistique

Curiosité scientifique

Stage encadré par :

Julie Orjuela (julie.orjuela_at_ird.fr), Bioinformaticienne

Yves Vigouroux (yves.vigouroux_at_ird.fr) Directeur de recherche

UMR DIADE

IRD - Institut de Recherche pour le Développement

Montpellier

Bibliographie:

(1) Rahman, A.; Hallgrímsdóttir, I.; Eisen, M.; Pachter, L. Association Mapping from Sequencing Reads Using K-Mers. eLife 2018, 7, e32920. https://doi.org/10.7554/eLife.32920.

(2) Audoux, J.; Philippe, N.; Chikhi, R.; Salson, M.; Gallopin, M.; Gabriel, M.; Le Coz, J.; Drouineau, E.; Commes, T.; Gautheret, D. DE-Kupl: Exhaustive Capture of Biological Variation in RNA-Seq Data through k-Mer Decomposition. Genome Biol. 2017, 18 (1), 243. https://doi.org/10.1186/s13059-017-1372-2.

(3) He, C.; Washburn, J. D.; Hao, Y.; Zhang, Z.; Yang, J.; Liu, S. Trait Association and Prediction Through Integrative K-Mer Analysis. bioRxiv November 19, 2021, p 2021.11.17.468725. https://doi.org/10.1101/2021.11.17.468725.

Candidature

Procédure : Envoyer un CV et une lettre de motivation

Date limite : 20 décembre 2023

Contacts

Julie Orjuela

 juNOSPAMlie.orjuela@ird.fr

Offre publiée le 6 octobre 2023, affichage jusqu'au 20 décembre 2023