Partager et expertiser des jeux de données multi-omiques sur des écosystèmes végétaux et microbiens

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Institut des Sciences des Plantes de Paris-Saclay IPS2 · Gif sur Yvette (France)  Oui gratification pendant les 6 mois

Mots-Clés

données multi-omiques intégration de données omiques métadonnées

Description

Description du sujet 

Contexte : Ce stage se place dans le cadre du projet Share-omics, qui consiste à sélectionner, documenter, évaluer et mettre à disposition des jeux de données multi-omiques provenant de différentes projets INRAE et couvrant des thématiques larges (écosystèmes végétaux et microbiens). Les données omiques considérées seront de plusieurs types moléculaires : transcriptomes, génomes, protéomes, épi-génomiques, métagénomiques. Ces données ne sont pas toujours accessibles et réutilisables à cause de la pluralité des bases de données les hébergeant, du faible niveau de leur description (métadonnées) ou de l’absence de critères permettant de juger de leur qualité. Pourtant les équipes de recherche à l’origine de la production de ces données multi-omiques ont une connaissance de ces jeux de données, permettant de définir la qualité et les outils pour les expertiser. Le projet Share-omics rassemble plusieurs équipes de bioinformatiques et biostatistiques manipulant des jeux de données multi-omiques et souhaitant les centraliser, annoter, caractériser et partager afin de constituer une base de travail pour évaluer et comparer des outils d’intégration sur des jeux de données de qualité.

Objectifs : Le but de ce stage est donc de mettre en place les outils et ressources pour collecter les jeux de données, définir le vocabulaire approprié pour décrire les jeux de données (schémas de métadonnées) et évaluer leur qualité en proposant des critères pertinents (avantages, limites, applications) et enfin les partager au sein du projet.

Travail demandé : Le travail de stage se découpera en 3 étapes principales

  1. Comparer 2 environnements de description de données multi-omics entre le Omics dataverse de l’INRAE et le consortium FAIRDOMhub afin de définir le mieux adapté pour les données multi-omiques.
  2. Définir les procédures et standards de métadonnées à utiliser afin d’évaluer la qualité de ces jeux de données, tant du point de vue des données (types, sources de données, données manquantes) que des métadonnées associées (respect des standards, niveaux de complétude et d’interopérabilité…) en définissant des critères ad-hoc.
  3. Développer et mettre en œuvre des procédures automatisées de vérification de cette qualité en utilisant les procédures et standards définis précédemment et en se basant sur différents package R pour expertiser et analyser ces jeux de données multi-omiques.

Compétences recherchées : en biologie et bioinformatique pour comprendre les données omiques, en gestion de données, langage de programmation R. 

Lieu du stage : IPS2Ce stage se déroulera dans l’équipe Réseaux génomiques (Gnet). Cette équipe multidisciplinaire travaille sur la mise au point de méthodes bioinformatiques et statistiques sur des données multi-omiques végétales.  L’objectif de l’équipe Gnet étant la détermination des fonctions des gènes afin d’inférer les interactions entre molécules (gènes, protéines, métabolites) dans des conditions environnementales variées. Cette équipe est constituée de 2 DR, 1 Pr, 1 Mdc et 4 ingénieurs.

Candidature

Procédure : Par mail avec envoi CV + lettre de candidature

Date limite : None

Contacts

Véronique Brunaud

 veNOSPAMronique.brunaud@inrae.fr

Offre publiée le 24 octobre 2024, affichage jusqu'au 15 février 2025