Stage M2 (objectif thèse) en fouille de données de séquences d'ARN, Gif sur Yvette.

 Stage · Stage M2  · 6 mois    Bac+5 / Master   I2BC, CNRS-Université Paris-Saclay · Gif sur Yvette (France)  580€

 Date de prise de poste : 1 février 2024

Mots-Clés

ARN RNA-seq fouille de données apprentissage IA ARN non-codant mRNA cancer vieillissement

Description

Cancer et vieillissement se caractérisent par des modifications génétiques et épigénétiques résultant en l’expression d’une grande diversité d’ARN aberrants (variants d’épissage, ARN non-codants, rétrotransposons, ARN de fusion, etc.). Les produits de ces ARN peuvent être oncogéniques ou déclencher une inflammation chronique alimentant alors une « boucle de vieillissement ». Identifier ces molécules est donc essentiel pour comprendre les mécanismes pathologiques à l’œuvre et identifier de nouvelles cibles thérapeutiques pour les maladies liées à l’age. Pour étudier les bases moléculaires du vieillissement, des milliers d’échantillons RNA-seq humains et souris d’âge ou de niveau de senescence déterminés sont disponibles. Toutefois, ces données sont pratiquement inexploitables pour la découverte de nouveaux ARN en raison de limitations des algorithmes conventionnels utilisant des gènes de référence. Nous avons développé des méthodes informatiques pour réindexer ces données à l’aide de k-mers, afin d’y mesurer l’expression d’ARN anormaux sans a priori sur leur séquence. Nous proposons dans ce projet de thèse d’exploiter ces méthodes pour observer de manière globale l’émergence d’ARN aberrants au cours du vieillissement. Nous construirons des index de plusieurs milliers d’échantillons RNA-seq et identifierons des ARN statistiquement liés à l’age ou au niveau de senescence des tissus. Nous intégrerons ces séquences dans des modèles prédictifs que nous validerons sur des jeux de données indépendants, générant ainsi de nouvelles connaissances sur les processus de vieillissement.

PRE-REQUIS

Les candidats devront être inscrit en master 2 en bioinformatique ou biostatistiques ou dans une formation équivalente. Une formation en analyse de séquences NGS, bonnes pratiques de développement de code (gestion de version, gestionnaires de workflow, containers) et apprentissage statistique seront des atouts. La capacité de comprendre les aspects biologiques du projet (biologie moléculaire, génomique, épigénétique, cancer, vieillissement) est indispensable.

ENVIRONNEMENT

L'équipe d'accueil, spécialisée en bioinformatique, est composée de 5 chercheurs et enseignants chercheurs permanents. L'étudiant(e) sera intégré à un consortium composé de 4 laboratoires d'informatique et de bioinformatique. Il/elle participera aux réunions de consortium et bénéficiera de nos collaborations au sein de ce groupe.

References

  1. Marchet, C., Iqbal, Z., Gautheret, D., Salson, M. & Chikhi, R. REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets. Bioinformatics. 36, i177–i185 (2020).https://doi.org/10.1093/bioinformatics/btaa487
  1. Wang Y, Xue H, Aglave M, Lainé A, Gallopin M, Gautheret D. (2022) The contribution of uncharted RNA sequences to tumor identity in lung adenocarcinoma. NAR Cancer. 4:1. https://doi.org/10.1093/narcan/zcac001 
  2. Nguyen Ha TN, Xue H, Firlej V, Ponty Y, Gallopin M, Gautheret D. (2021) Reference-Free Transcriptome Signatures for Prostate Cancer Prognosis. BMC Cancer. 12:394. https://doi-org.insb.bib.cnrs.fr/10.1186/s12885-021-08021-1

Candidature

Procédure : Envoyer CV et courte motivation à daniel.gautheret@universite-paris-saclay.fr

Date limite : 1 janvier 2024

Contacts

Pr. Daniel Gautheret

 daNOSPAMniel.gautheret@universite-paris-saclay.fr

Offre publiée le 20 octobre 2023, affichage jusqu'au 1 janvier 2024