Stage M2 (thèse financée) en fouille de données de séquences d'ARN, Gif sur Yvette
Stage · Stage M2 · 6 mois Bac+5 / Master I2BC, CNRS-CEA-Université Paris-Saclay · Gif sur Yvette (France) Indemnité 580€
Date de prise de poste : 13 février 2023
Mots-Clés
ARN RNA-seq fouille de données apprentissage IA ARN non-codant mRNA cancer vieillissement
Description
Fouille de grandes bases de données de séquences pour la découverte de signatures ARN prédictives du phénotype
PROJET SCIENTIFIQUE
Le séquençage d'ARN à haut débit (RNA-seq) est un outil unique pour la découverte de biomarqueurs médicaux et de cibles pharmaceutiques. Cependant, alors que plus d'un million de banques RNA-seq humaines sont publiquement disponibles, ce trésor d'information médicale ne peut réaliser son plein potentiel car il est impossible d'interroger directement cette ressource pour mesurer l'expression d'un ARN d'intérêt. Plusieurs projets bioinformatiques ont abordé cette question, mais ils reposent sur des ARN de référence "canoniques" qui ne capturent pas toute la diversité des transcrits qu'on oberve dans les maladies.
Dans le cadre d'un projet nouvellement financé, nous développons des structures d'indexation capables de traiter des requêtes quantitatives sans référence dans des dizaines de milliers de banques RNA-seq [1]. Notre équipe s'intéresse à l'exploitation de ces grandes bases de données pour la découverte de nouveaux ARNs significativement associés à des traits liés à des phénotypes comme le vieillissement ou les maladies [2,3]. Ces ARN peuvent être des biomarqueurs, des cibles thérapeutiques ou vaccinales ou encore former des signatures prédictives pour la médecine de précision. Nous visons en particulier des applications dans le domaine de l'oncologie et du vieillissement/sénescence. Notre consortium est composé de bioinformaticiens de quatre institutions, avec une forte expérience en informatique, structures de données, analyse RNA-seq à haut débit et transcriptomique en santé.
L'étudiant(e) participera au développement d'outils pour découvrir des séquences d'ARN associées à des caractéristiques biologiques, pour générer des modèles prédictifs à partir de ces ARN, et pour tester ces modèles sur des données réelles. L'activité sera co-encadrée par un biostatisticien de l'I2BC. Le stage M2 pourra donner lieu à une poursuite en thèse (déjà financée). L'étudiant(e) développera une solide experience en IA appliquée à la santé, tout en ayant l'opportunité unique de faire avancer les connaissances sur le vieillissement et le cancer.
PRE-REQUIS
Les candidats devront être inscrit en master 2 en bioinformatique ou biostatistiques ou dans une formation équivalente. Une formation en analyse de séquences NGS, bonnes pratiques de développement de code (gestion de version, gestionnaires de workflow, containers) et apprentissage statistique seront des atouts. La capacité de comprendre les aspects biologiques du projet (biologie moléculaire, génomique, épigénétique, cancer, vieillissement) est indispensable.
ENVIRONNEMENT
L'équipe d'accueil, spécialisée en bioinformatique, est composée de 5 chercheurs et enseignants chercheurs permanents. L'étudiant(e) sera intégré à un consortium composé de 4 laboratoires d'informatique et de bioinformatique. Il/elle participera aux réunions de consortium et bénéficiera de nos collaborations au sein de ce groupe.
Candidature
Procédure : Envoyer CV et courte lettre de motivation.
Date limite : 9 janvier 2023
Contacts
Pr. Daniel Gautheret
daNOSPAMniel.gautheret@universite-paris-saclay.fr
Offre publiée le 5 octobre 2022, affichage jusqu'au 9 janvier 2023