Modèles d'Intelligence Artificielle pour la génération de séquences de protéines
Stage · Stage M2 · 6 mois Bac+5 / Master Laboratoire Biosciences et bioingénierie pour la santé - IRIG - CEA · Grenoble (France)
Date de prise de poste : 2 janvier 2025
Mots-Clés
Intelligence Artificielle, Deep Learning, LLMs, Génomique Fonctionnelle, Protéines Thérapeutiques
Description
Les avancées en technologies de synthèse d'oligonucléotides, de phénotypage haut débit et de séquençage profond ont permis des progrès majeurs dans le criblage des variations génétiques porteuses d'impacts phénotypiques. Ces approches permettent de concevoir des protéines aux fonctionnalités spécifiques qui sont essentielles en médecine de précision, notamment pour le développement d'anticorps monoclonaux, de capsides virales modifiées ou de nanosystèmes peptidiques.
Bien que la quantité de données générées par ces approches soit massive, les banques de variants testables expérimentalement ne représentent néanmoins qu'une fraction minime de l'ensemble des variations génétiques possibles. Il est par conséquent crucial de pouvoir développer des modèles d'intelligence artificielle (IA) prédictifs capables d'extrapoler la fonctionnalité des variants à partir de banques existantes de mutants. Le défi principal réside dans l'entraînement efficace de ces modèles d'IA à partir des données de criblage pour la conception de protéines thérapeutiques.
Programme de travail
Le/la stagiaire travaillera sur les tâches suivantes :
Une revue de la littérature sur l'utilisation des modèles IA en génomique fonctionnelle, en particulier pour l'embedding des séquences d'acides aminés avec de grand modèles de language (LLMs).
Une recherche sur les LLMs pré-entraînés disponibles et leurs spécificités pour les représentations vectorielles de séquences
La mise au point d'un plan d'utilisation des LLMs sur des jeux de données
La mise en œuvre du plan et l'évaluation des résultats
Objectifs
- Développer une familiarité avec les concepts du Deep Learning et leurs applications en génomique fonctionnelle
- Acquérir une expérience pratique avec Julia ou Python et leurs frameworks de deep learning (Flux, PyTorch, Keras)
- Identifier et sélectionner les outils les plus performants pour l'analyse de séquences protéiques
- Mettre en œuvre des modèles d'apprentissage pour l'identification et la prédiction de fonctionnalités protéiques
Compétences recherchées
- Bonnes connaissances en programmation Julia ou Python
- Connaissances de base en biologie moléculaire
- Curiosité et volonté d'apprendre dans un domaine interdisciplinaire en évolution
- Familiarité avec les concepts du Deep Learning et de l'IA Générative (optionnel)
Encadrement
Guido Uguzzoni - chercheur CEA
Lieu du stage
Equipe Génétique et Chémogénomique (Gen&Chem - BGE)
Laboratoire Biosciences et bioingénierie pour la santé - IRIG CEA - Grenoble
Candidature
Procédure : Pour postuler, envoyez votre CV et lettre de motivation à : guido.uguzzoni@gmail.com
Date limite : 1 décembre 2025
Contacts
Guido Uguzzoni
guNOSPAMido.uguzzoni@gmail.com
Offre publiée le 13 novembre 2024, affichage jusqu'au 1 décembre 2025