Stage Intégration de données OMICs chez les plantes par des approches sans-référence
Stage · Stage M2 · 5 mois Bac+5 / Master IRD - Institut de Recherche pour le Développement · Montpellier (France) minimum à 4,05 € par heure de stage
Date de prise de poste : 1 février 2023
Mots-Clés
integration, omics, ngs, genotypage, association, kmer
Description
Proposition du stage en bioinformatique premier semestre 2024
Sujet : Intégration de données OMICs chez les plantes par des approches sans-référence
Avec le but de modéliser et de prédire les caractères phénotypiques intéressants chez les plantes, dans l'unité DIADE, on s'intéresse aux méthodes d’intégration de données génomiques, transcriptomiques et phénotypiques.
La simplicité du k-mer offre un avantage pour l'intégration de multiples types de données, et pourrait potentiellement être utilisée pour les prédictions de caractères d’adaptation aux variations climatiques par exemple. Des études d’association avec des k-mers ont montré une précision de prédiction au moins aussi élevée que celle de la méthode standard basée sur les SNP (polymorphisme d’un base)1. L’utilisation des k-mers dans la détection des régions/gènes différentiellement exprimés à aussi été prouvé sur l’humain2 et plus récemment dans notre laboratoire sur le modèle le riz. Utiliser ces approches sans référence, qui se basent sur les k-mers, sont intéressantes pour l'étude d’organismes non-modèles dont le génome de référence est incomplet ou inexistant et très prometteurs pour pouvoir faire de l'intégration.
L’objectif principal du stage sera d’identifier des modèles d'apprentissage et/ou méthodes efficaces de modélisation prédictive qui permettront d'intégrer des données génotypiques et transcriptomiques (déjà analysées indépendamment) et les données phénotypiques (climatiques et phénotypiques). Récemment, He et al, 20213 ont prédit des caractères quantitatifs chez le maïs. De multiples stratégies de machine learning tel que le NLP (“bag of words”) ont été implémentés et testés pour prédire le temps de floraison, l’angle de la feuille à partir des données k-mers. D’autres méthodes d’analyse multifactorielles pourront aussi être testées telles que NFM. Différents types de données chez le riz sont disponibles dans notre laboratoire.
Le financement du master 2 est prévu dans le cadre du projet Km-Xplore de l’unité DIADE. Merci d’envoyer un CV et une lettre de motivation.
Compétences requises :
Compétences en programmation : bash, python, R
Maîtrise des systèmes Git et Unix
Bases en statistique
Curiosité scientifique
Stage encadré par :
Julie Orjuela (julie.orjuela_at_ird.fr), Bioinformaticienne
Yves Vigouroux (yves.vigouroux_at_ird.fr) Directeur de recherche
UMR DIADE
IRD - Institut de Recherche pour le Développement
Montpellier
Bibliographie:
Candidature
Procédure : Envoyer un CV et une lettre de motivation
Date limite : 20 décembre 2023
Contacts
Julie Orjuela
juNOSPAMlie.orjuela@ird.fr
Offre publiée le 6 octobre 2023, affichage jusqu'au 20 décembre 2023