Traduction du site en cours

Le site de la SFBI est en cours de traduction en anglais.

Modèles d'IA d'aide à l'interprétation des résultats d'analyses de microbiote

 Stage · Stage M1  · 3 mois    Bac+4   GD Biotech · Lille (France)  Gratification à définir

 Date de prise de poste : 16 juin 2025

Mots-Clés

Intelligence artificielle Machine Learning Deep learning Retrieval-Augmented Generation Analyse de données Microbiote Biotechnologies LLMs

Description

Développement d’une IA d’aide à l’analyse et à l’interprétation des résultats d’analyses de microbiotes

Sujet du stage

Les données issues des analyses de microbiotes offrent une véritable mine d’informations, mais leur interprétation peut s’avérer complexe et nécessite souvent l’intervention d’experts pour en tirer des conclusions concrètes. Aujourd’hui, nous souhaitons aller plus loin en explorant la possibilité de développer un outil basé sur l’intelligence artificielle (IA) dédié à l’interprétation automatique de ces données génomiques. L’objectif de ce projet est de tester et d’évaluer la capacité et la cohérence de l’IA à traiter nos données internes.

L’outil final devra :
- Analyser automatiquement les résultats : identifier les tendances, corrélations et éventuels signaux pertinents dans les données.
- Générer des rapports d’analyse personnalisés.
- S’appuyer sur des sources scientifiques à jour : l’IA devra pouvoir interroger une base de connaissances biologique (ex. : PubMed, Google Scholar, articles et publications scientifiques pertinents) pour enrichir l’interprétation avec des références validées.

Le but du stage est d’aller le plus loin possible dans cette exploration, en fonction du temps disponible. Si la réalisation complète d’un prototype fonctionnel n’est pas atteinte, se limiter à une étude bibliographique approfondie, l’évaluation des technologies disponibles, ainsi que quelques premiers tests, sera déjà considéré comme satisfaisant.

Missions principales

Le stage comprendra une phase d’évaluation des technologies disponibles (par exemple : Retrieval-Augmented Generation (RAG), LLMs personnalisés comme GPT ou Claude, Machine Learning, Deep Learning ou toute autre méthode que vous identifierez comme adéquate).

État de l’art des outils existants

  • Exploration de technologies et approches IA adaptées à l’interprétation d’analyses de données biologiques.
  • Étude de solutions comme : Retrieval-Augmented Generation (RAG), intégration avec des modèles de langage avancés.
  • Identification des bases de données scientifiques accessibles (PubMed, Google Scholar, autres).

Progresser vers l’implémentation d’un prototype

  • Développement d’un pilote fonctionnel capable d’extraire les informations principales à partir de données brutes de tables/graphes.
  • Connexion à une base de données scientifique et automatisation de la récupération d’articles pertinents pour les interprétations.
  • Génération d’un rapport automatisé structuré de manière compréhensible pour des non-experts.

Validation des résultats

  • Tests fonctionnels sur des cas réels.
  • Ajustement en fonction des retours d’expérience.

Livrables attendus

  • Une évaluation des approches retenues par rapport à d’autres solutions (avantages/inconvénients, performance, facilité d’intégration).
  • Une documentation du travail réalisé et des propositions d’améliorations futures.
  • Si l’une des solutions est approuvée, en fonction du temps disponible, un premier prototype fonctionnel d’IA capable de générer des rapports à partir des résultats de microbiotes.

Profil du candidat

Nous recherchons un(e) étudiant(e) motivé(e) et curieux(se), actuellement inscrit(e) en Master dans le domaine de l’Intelligence Artificielle, Data Science ou Bioinformatique.

Les compétences principales recherchées incluent :

Compétences en IA et ML

  • Compréhension des architectures de modèles de langage (LLM) et des approches comme le RAG.
  • Connaissances en gestion et interrogation de bases de données.
  • Familiarité avec PyTorch, TensorFlow ou autres frameworks d’IA.

Compétences en développement logiciel

  • Maîtrise de Python (indispensable).
  • Connaissance des API REST pour connecter la solution avec des bases de données ou outils externes.

Capacité d’exploration de données et d’automatisation

  • Vérification de corrélations ou tendances dans des datasets biologiques.

Qualités personnelles

  • Rigueur et autonomie.
  • Proactivité et force de proposition.
  • Intérêt pour les problématiques interdisciplinaires (biologie, IA, développement).

Informations complémentaires

Le stage est prévu pour une durée de 2-3 mois pour un commencement prévu en juin/juillet 2025. Une gratification est proposée.
La période et la durée du stage peuvent être adaptées en fonction de la disponibilité du stagiaire.

Pour en savoir plus sur GD Biotech : https://www.gdbiotech.eu/
Une démo contenant des données types pour le microbiote est disponible ici : https://demo.miciv-gdbiotech.eu/

Encadrement : Franck BONARDI - responsable bioinformatique et Elodine COQUELET - Ingénieur SI

Lieu du stage : GD Biotech - Campus de L’institut Pasteur de Lille

Candidature

Procédure : Envoyer votre CV avec un mail d'accompagnement à f.bonardi@genesdiffusion.com

Date limite : 6 juin 2025

Contacts

 Franck Bonardi
 f.NOSPAMbonardi@genesdiffusion.com

Offre publiée le 13 mars 2025, affichage jusqu'au 6 juin 2025