Stage de M2 - Évaluation de Neo4J dans le cadre de la création du graphe de connaissances Omnicrobe
Stage · Stage M2 · 6 mois Bac+5 / Master INRAE MaIAGE · Jouy-en-Josas (France)
Date de prise de poste : 1 janvier 2025
Mots-Clés
informatique, données textuelles, graphe de connaissances, base de données
Description
Contexte
L’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE ; https://maiage.inrae.fr/) est située sur le centre INRAE (https://www.inrae.fr/) de Jouy-en-Josas. Cette unité de recherche regroupe des mathématiciens, des informaticiens, des bioinformaticiens et des biologistes qui développent des méthodes pour répondre à des questions de biologie et agro-écologie, allant de l'échelle moléculaire à celle du paysage en passant par l'étude d'individus, de populations ou d'écosystèmes. MaIAGE est structurée en cinq équipes dont l’équipe Bibliome (https://maiage.inrae.fr/fr/bibliome) qui développe des méthodes de traitement automatique des langues (TAL) et d'apprentissage automatique (ML) pour extraire des informations de textes par des ontologies dans le domaine de la biologie ; l’équipe StatInfOmics (https://maiage.inrae.fr/fr/statinfomics) qui développe et met en œuvre des méthodes statistiques et bioinformatiques dédiées à l’analyse de données “omiques” ; et la plateforme bioinformatique Migale (https://migale.inrae.fr) qui fournit des services à la communauté des sciences de la vie. Cette proposition de stage s’inscrit sur un projet commun aux trois équipes.
Objectifs & Travail demandé
L’unité MaIAGE développe l’application Omnicrobe (Dérozier S et al. PlosOne, 2023) qui rassemble des informations sur les habitats, les phénotypes et les usages des micro-organismes, extraites automatiquement de sources textuelles (PubMed, GenBank, DSMZ, Centres de Ressources Biologiques pour les microorganismes - CIRM). Omnicrobe forme un graphe de connaissances sur la biodiversité microbienne contenant plus d’un million de relations. Les données sont accessibles via une interface web (https://omnicrobe.migale.inrae.fr/) et une interface programmatique (API ; https://omnicrobe.migale.inrae.fr/api). Les données d’Omnicrobe sont actuellement structurées et stockées dans une base de données relationnelles PostgreSQL. Le ou la stagiaire aura pour mission d’évaluer la solution Neo4J (https://neo4j.com/fr/) afin de représenter les données sous forme de graphe. Il ou elle s’appuiera sur un jeu de données constitué d’un sous-ensemble des données Omnicrobe afin d’alimenter une base Neo4J et d’évaluer les fonctionnalités et les performances de la suite logicielle (conception, requêtage).
Compétences techniques recherchées
- Python
- Base de données
Candidature
Procédure : Merci d'envoyer un email accompagné d'un CV et d'une lettre de motivation à sandra.derozier@inrae.fr et robert.bossy@inrae.fr.
Date limite : 31 décembre 2024
Contacts
Sandra Dérozier
saNOSPAMndra.derozier@inrae.fr
Offre publiée le 6 novembre 2024, affichage jusqu'au 31 décembre 2024