Stage M2 en développement

 Stage · Stage M2  · 6 mois (renouvelable)    Bac+5 / Master   INRAE PROSE (en collaboration avec l'IFB) · Antony (France)

Mots-Clés

métabarcoding 16S entrepôt de données FAIR data interfaçage data broker

Description

Stage de 6 mois : développement d’un connecteur et d’une interface logicielle entre DeepOmics, un système d’information de données biologiques de la méthanisation, et les outils de soumission des données de séquençage à l’European Nucleotide Archive (ENA) de l’Institut Français de Bioinformatique (IFB).

 

Unité d’accueil : INRAE-PROSE (Procédés biotechologiques au service de l’environnement), Antony (92).

https://www6.jouy.inrae.fr/prose/

Encadrants : Ariane Bize ariane.bize[at]inrae.fr, Véronique Jamilloux veronique.jamilloux[at]inrae.fr

Structure co-encadrante : Institut Français de Bioinformatique (IFB, https://www.france-bioinformatique.fr/)

Co-encadrants : Thomas Denecker thomas.denecker[at]france-bioinformatique.fr, Hélène Chiapello helene.chiapello[at]inrae.fr

 

INRAE-PROSE est une unité multidisciplinaire menant des recherches sur les procédés de traitement et de valorisation des eaux usées et des déchets, tels que la méthanisation. Ces procédés reposent sur l’activité catalytique de communautés microbiennes complexes. Aussi, dans une optique d’optimisation des performances de ces procédés, est-il nécessaire d’élucider les liens qui existent entre les conditions opératoires, la structure et l’activité des communautés mcirobiennes, et enfin les performances globales du procédé, telles que le rendement ou la stabilité. Pour favoriser cette démarche, un enjeu clé dans notre domaine est d’une part de produire des données FAIR (Findable, Accessible, Interoperable, Reusable), d’autre part d’atteindre une masse critique de données pour pouvoir mener des approches de fouille de données et des méta-analyses. Aussi notre unité coordonne-t-elle depuis plusieurs années le développement d’un entrepôt dédié aux données de séquençage, et aux données métier associées. Appelé DeepOmics, cet entrepôt existe actuellement sous la forme d’un pilote accessible essentiellement à l’ensemble des agents INRAE (Presentation DeepOmics).

Pour accroître l’attractivité de cet entrepôt, nous souhaitons développer une fonctionnalité facilitant la publication de données de séquençage se trouvant dans l’entrepôt DeepOmics, ce qui est le sujet du présent stage. L’objectif sera de faciliter le dépôt de données présentes dans DeepOmics vers la base de données publique internationale European Nucleotide Archive (ENA). L’intérêt pour l’utilisateur de DeepOmics sera d’éviter de saisir manuellement un grand nombre de données déjà renseignées lors du dépôt dans DeepOmics, sachant qu’un dépôt des séquences brutes dans les bases de données de type ENA devient obligatoire lorsqu’arrive l’étape de publication d’un article scientifique. Cette démarche participe de plus au concept de science ouverte et contribue à rendre ces données FAIR (« fairisation »).

Sur le plan technique, il s’agira de réaliser un connecteur et un prototype d’interface entre DeepOmics d’une part, et les outils logiciel de data brokering actuellement développés par l’Institut Français de Bioinformatique (IFB). Le prototype développé au cours du stage permettra d’extraire et préparer les métadonnées présentes dans DeepOmics pour les rendre compatibles avec les exigences et checklists de l’ENA. De plus, il permettra d’assurer le transfert des jeux de données à l’ENA via les ressources de l’Institut Français de Bioinformatique et en proposant un tableau de bord de suivi de soumissions.

 

L'Institut Français de Bioinformatique (IFB) est une infrastructure nationale de support à la recherche, qui regroupe 35 plateformes de services et équipes associées réparties sur le territoire, et une unité coordinatrice, l'IFB-core (UAR 3601, CNRS). Parmi les activités stratégiques que souhaite développer l’IFB figure la mise en place d’un service de courtage de données (data brokering) en partenariat avec les infrastructures nationales productrices de données et les ressources internationales d’archivage de données, en particulier, l’European Nucleotide Archive (ENA) de l’European Bioinformatics Institute (EBI). Ce courtage des données s'insére dans le cadre d’un projet de l’IFB visant à assurer l’orchestration des flux de données tout au long de la vie des projets de recherche, depuis leur production jusqu’à leur valorisation dans les banques de données internationales, en passant par les chaînes de traitement et d’analyse, et en établissant des liens avec les informations contenues dans le Plan de Gestion de Données (PGD). Ceci nécessite la conception, le développement et la mise en œuvre d’un panel d’outils et procédures documentées permettant aux utilisateurs d’anticiper le dépôt des données et métadonnées de leurs projets, en s’appuyant sur les standards internationaux du domaine, de valider la cohérence entre données et métadonnées, et d’effectuer leur soumission aux entrepôts nationaux (dataverses institutionnels) et internationaux (banques de données spécialisées).

 

Les missions confiées au stagiaires seront :

  • de prendre connaissance des différents outils (DeepOmics, outils IFB de brokering, spécifications et checklists de l’ENA) ;
  • de réaliser un schéma conceptuel décrivant le prototype, cohérent avec la stratégie sélectionnée ;
  • puis de développer le prototype du connecteur logiciel et de son interface.

 

Le stagiaire sera co-encadré à ~50% par l’unité PROSE, qui coordonne le projet DeepOmics et à ~50% par l’IFB, qui développe les outils logiciels de brokering au niveau national.

A PROSE, les référents seront Véronique Jamilloux, une ingénieure en informatique et biostatistique (aspects techniques), et Ariane Bize, chercheuse en écologie microbienne (aspects métiers, management fonctionnel de DeepOmics). A l’IFB, il s’agira de Thomas Denecker, ingénieur de recherche en informatique et Hélène Chiapello, co-coordinatrice de l’action data brokering IFB.

A l’issue du stage, un CDD pourra être proposé pour passer du stade de prototype au stade de production, et poursuivre l’ajout de fonctionnalités à DeepOmics (ex : développement d’un module de requête de l’entrepôt).

 

Les principales activités seront :

(1) Définir le flux de données entre DeepOmics, OmicsBroker et ENA

(2) Réaliser une veille sur les outils et les formats disponibles pour la structuration des données et des métadonnées comme par exemple le modèle ISA 

(3) Mettre en place les différents outils permettant de connecter DeepOmics, OmicsBroker et ENA (API)

(4) Contribuer au dialogue avec l’ENA

(5) Participer à la mise en place d’outil de suivi et de visualisation des soumissions dans omicsBroker

 

Compétences requises

- Programmation en python

- Programmation web (HTML, JS et CSS)

- Langue anglaise : B2 (cadre européen commun de référence pour les langues) anglais technique du domaine

Compétences supplémentaires appréciées 

- Programmation avec le framework Django 

- Programmation en R

- Connaissance en bonnes pratiques de développement comme la  gestion collaborative de code

Candidature

Procédure : Envoyer un mail à Ariane Bize

Date limite : 31 décembre 2022

Contacts

Ariane Bize

 arNOSPAMiane.bize@inrae.fr

Offre publiée le 12 septembre 2022, affichage jusqu'au 31 décembre 2022