Stage Datamining pour enrichissement de la Base de données MycoCentral
Stage · Stage M2 · 6 mois Bac+5 / Master Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail (Anses) · Fougères (France) 580
Date de prise de poste : 15 janvier 2025
Mots-Clés
Text-Mining NLP Base de données
Description
Contexte scientifique :
Les mycotoxines sont des composés produits par des champignons filamenteux et dont certaines sont connues pour être toxiques pour les humains et les animaux. Elles peuvent être produites soit avant la récolte, lorsque les céréales et les cultures fourragères poussent dans les champs, soit après la récolte, pendant la manipulation, le transport, le stockage et la transformation de ces matières premières. La toxicité de la plupart de ces mycotoxines est inconnue.
La contamination par les mycotoxines a des répercussions sur les entreprises agricoles ainsi que sur la santé humaine : on estime que 3,2 millions de cas de maladies et 50 000 hospitalisations par an sont dus aux mycotoxines dans la seule Union Européenne. Il s'agit d'un problème croissant, favorisé par le changement climatique.
Dans le cadre d’un projet interne à l’ANSES, Myco-EAT, incluant deux équipes de la Direction de l’évaluation des Risques ainsi que l’unité Toxicologie des contaminants de l’ANSES Fougères, l’objectif de ce projet est d’extraire des informations liées aux mycotoxines dans des bases de données mais aussi dans la littérature scientifique. L’objectif final sera de compléter la base de données MycoCentral (www.mycocentral.eu), développée dans le cadre du projet européen Agritox (2018-2023). Cette base de données vise à centraliser les connaissances sur les mycotoxines, particulièrement les informations de dangerosité, de méthodes de détection et de remédiation des mycotoxines. Ces données sont issues à la fois de l’interrogation de logiciels dédiés mais aussi d’approches de Data Mining. Les résultats collectés permettront d’orienter des besoins de recherche. Parmi les résultats attendus, il s’agira de compléter la base de données avec des informations de toxicologie et de quantification de la teneur de ces molécules dans l’environnement et dans l’alimentation humaine et animale obtenues par des approches de text-mining.
Objectifs
Les objectifs de ce stage seront :
- Avancer les approches de Data Mining sur des bases de données bibliographiques (en cours de développement dans le laboratoire) pour favoriser l’extraction automatique d’informations d’intérêt afin d’orienter la recherche prospective et de prioriser les besoins pour compléter les données manquantes. Les informations issues de ces approches de Data Mining seront intégrées dans la base de données.
- Interrogation des bases de données en ligne regroupant des informations sur les mycotoxines ou interrogations de logiciels de simulation des propriétés physico-chimiques et/ou biologiques puis rapatriements des résultats
- Poursuivre le travail d’organisation structurée des données dans la base
- Améliorer le pipeline automatique d’interrogation (python) et de rapatriement des données disponibles dans différentes bases de données ou simulées informatiquement (QSAR, docking, GEO etc.).
Méthodes
Le projet proposé portera essentiellement sur des approches bio-informatiques : interrogation de bases de données, simulations informatiques afin d’enrichir la base de données sur les mycotoxines et de rapatrier et agréger les données extraites de la littérature dans la base de données. A l’aide des outils existants, il s’agira de mettre en place des protocoles automatiques de recherche et d’implémentation des requêtes en python. Les programmes python déjà publiés seront utilisés comme base de travail. L’objectif est de les adapter puis de les automatiser afin de faciliter les recherches prospectives du laboratoire sur ces molécules. Ce projet peut évoluer en fonction du profil du candidat.
Candidature
Procédure : Envoyer un mail à denis.habauzit@anses.fr
Date limite : 30 novembre 2024
Contacts
Denis Habauzit
deNOSPAMnis.habauzit@anses.fr
Offre publiée le 22 octobre 2024, affichage jusqu'au 30 novembre 2024