Evaluation de DNA Language Model pour la prediction d'elements cis-regulateurs chez les cereales

 Stage · Stage M2  · 6 mois    Bac+5 / Master   UMR 232 DIADE Equipe CERES · Montpellier (France)  ~ 639 € par mois

 Date de prise de poste : 1 février 2025

Mots-Clés

TFBS CRE LLM Genomique TF Deep Learning Apprentissage Machine IA Generative

Description

Les modèles de language (LLMs) deviennent également de plus en plus populaires dans le domaine de la bioinformatique et de la génomique. Ils peuvent être utilisés pour identifier des gènes et des protéines, prédire la fonction des gènes, analyser des données génétiques, développer de nouveaux traitements pour les maladies, pour n'en citer que quelques-unes. La construction d’un LLMs est très coûteuse en ressources machines. Très souvent l’utilisation d’un LLM pour une tâche particulière consiste à évaluer la pertinence des résultats qu’il produit sur les données d'évaluation pour le domaine considéré. Dans un second temps, si les résultats ne sont pas suffisamment bons, le modèle peut être ré-entraîné sur les données spécifiques au domaine pour un coût bien inférieur à celui d’un entraînement ‘de novo’. Cette étape est nommée apprentissage par renforcement (“fine-tuning’, reinforcement learning).
L’objectif du stage proposé n’est pas de construire un nouveau LLM mais plutôt d'évaluer la capacité des LLM existants à répondre à l’identification de Facteurs de Transcriptions (TFs) et aux site de fixation de TFs (TFBS) pour des espèces peu étudiées.

Les objectifs du stage sont les suivants :

  • Bonne connaissances en programmation python

  • Familiarité avec les concepts du Deep Learning et de l’IA Generative

  • Experience avec PyTorch, Keras ou un autre framework (optionnel)

  • Expérience avec des modèles open source d'IA générative (optionnel)

  • Curiosité et volonté d'apprendre dans un domaine en constante évolution

  • Connaissance des bonnes pratiques de développement (Git, tests unitaires, etc.)

  •  

  • Évaluer les applications existantes des LLMs pour l’identification de TFs et TFBSs (DNABERT, Nucleotide Transformer, GeneFormer, DeepSTF, DeepBind, DeepSEA):

  • Entraîner les outils pour identifier des elements de regulations (RE) de la transcription, TFs et TFBS, des marques epigenetiques chez le riz (O. sativa japonica) et Arabidopsis thaliana.

  • Sélectionner les outils les plus performants pour appliquer chez des especes moins etudiees O. barthii et O. glaberrima

  • Etude comparative des associations TF-TFBS-RE entre les espèces O.Barthii, O. Glaberrima et O. Sativa

Le programme de travail comprendra les tâches suivantes :

  • Une revue de la littérature sur l'utilisation des LLMs dans la génomique.

  • Une recherche sur les LLMs disponibles et leurs spécificités pour détecter TFs et TFBSs.

  • La mise au point d'un plan d'utilisation des LLMs sur des jeux de données.

  • La mise en œuvre du plan et l'évaluation des résultats.

Competences recherchées:

  • Bonne connaissances en programmation python

  • Familiarité avec les concepts du Deep Learning et de l’IA Generative

  • Experience avec PyTorch, Keras ou un autre framework (optionnel)

  • Expérience avec des modèles open source d'IA générative (optionnel)

  • Curiosité et volonté d'apprendre dans un domaine en constante évolution

  • Connaissance des bonnes pratiques de développement (Git, tests unitaires, etc.)

Encadrement

  •  Mikael Lucas - chercheur IRD

  •  Pierre Larmande - chercheur IRD

Candidature

Procédure : Les candidatures pour ce stage (CV, lettre de motivation, dernier bulletin scolaire M1) seront reçues EXCLUSIVEMENT dans un seul document PDF accessible au téléchargement par courriel envoyé à Pierre LARMANDE (firstname.lastname@ird.fr)

Date limite : 20 janvier 2025

Contacts

Pierre Larmande

 piNOSPAMerre.larmande@ird.fr

Offre publiée le 8 novembre 2024, affichage jusqu'au 20 janvier 2025