Stage en bioinformatique - Analyse de données omiques
Stage · Stage M2 · 6 mois Bac+5 / Master Inserm U1231 GAD - CHU Dijon · DIJON (France)
Date de prise de poste : 3 février 2025
Mots-Clés
NGS omics transcritomique séquencage python R génétique génomique Epissage RNAseq
Description
L'ensemble des maladies rares, dont la plupart sont d'origine génétique, concernent environ 3 million de personnes en France, soit environ 5 % de la population, et contribuent pour 10 % des décès survenant entre 1 et 5 ans1. Elles ont un impact significatif sur la qualité et la durée de vie des patients et représentent un coût considérable pour la société, et constituent donc un enjeu de santé publique majeur.
Etant donné que 80 % de ces pathologies ont une origine génétique1, et malgré les avancées réalisées dans l'étude et les applications de la génomique humaine à visée diagnostique, dans le cadre des pathologies rares la principale difficulté est souvent d'identifier une variation génétique responsable pour poser un diagnostique définitif. Même après l'arrivée de l'utilisation massive du séquençage d'exome, on estime qu'environ 50 à 70 % des patients atteints de maladies rares demeurent sans diagnostic2, ce qui bloque l'accès à une thérapie potentielle et contribue à une errance diagnostique pouvant s'étendre sur des mois, voire des années, qui s'ajoute à la souffrance des patients. De nouvelles approches sont donc toujours nécessaires en bioinformatique pour améliorer le taux de diagnostic. Une approche hautement complémentaire de l'analyse du génome ou plus souvent de l'exome, utilisé en routine, est l'analyse des données d'expression des gènes issues du RNA-seq, pour identifier non seulement des défauts de régulation de l'expression mais également de l'épissage des ARN3.
Dans ce cadre, nous cherchons à implémenter de nouveaux outils performants dans notre pipeline d'analyse RNA-seq, en particulier d'outils pouvant s'adapter spécifiquement à la recherche de variations orphelines détectées chez un seul patient (approche de type one-vs-all). Nous avons débuté l'implémentation du logiciel FRASER4, qui utilise une méthode reposant sur la détection d'événement aberrants suite au débruitage des données d'expression par un auto-encodeur, grâce au machine learning. Nous cherchons désormais à optimiser les performances obtenues (en sensibilité, spécificité et temps de calcul). C'est pourquoi nous souhaitons notamment implémenter FRASER 2.05, utilisant un indice différent pour le comptage d'événement au niveau des introns (Jaccard index) et obtenant de meilleurs résultats. Il s'agira pour le stagiaire, de se familiariser avec cet outil, ainsi que de réaliser cette optimisation notamment en adaptant aux échantillons d'intérêt différents groupes contrôles, paramètre essentiel pour FRASER, et de comparer les résultats obtenus avec la première version.
Afin de pouvoir faciliter l'interprétation des résultats, le second volet de ce stage consistera en parallèle à utiliser des outils de visualisation (e.g. SpliceAI Visual8 ou ggtranscript)9 des événements d'épissage aberrants, et si possible à tester et comparer des solutions de prédiction utilisant l'intelligence artificielle (SpliceAI de Illumina6, pangolin7), en utilisant dans les 2 cas une installation locale afin de préparer leur transfert en conditions de production dans un pipeline d'analyse.
Références
1. 300 millions de patients exceptionnels – C’est quoi les maladies rares ? · Inserm, La science pour la santé https://www.inserm.fr/c-est-quoi/300-millions-patients-exceptionnels-c-est-quoi-maladies-rares/.
2. Wortmann, S.B., Koolen, D.A., Smeitink, J.A., van den Heuvel, L., and Rodenburg, R.J. (2015). Whole exome sequencing of suspected mitochondrial patients in clinical practice. J. Inherit. Metab. Dis. 38, 437–443. https://doi.org/10.1007/s10545-015-9823-y.
3. Kremer, L.S., Bader, D.M., Mertes, C., Kopajtich, R., Pichler, G., Iuso, A., Haack, T.B., Graf, E., Schwarzmayr, T., Terrile, C., et al. (2017). Genetic diagnosis of Mendelian disorders via RNA sequencing. Nat. Commun. 8, 15824. https://doi.org/10.1038/ncomms15824.
4. Mertes, C., Scheller, I.F., Yépez, V.A., Çelik, M.H., Liang, Y., Kremer, L.S., Gusic, M., Prokisch, H., and Gagneur, J. (2021). Detection of aberrant splicing events in RNA-seq data using FRASER. Nat. Commun. 12, 529. https://doi.org/10.1038/s41467-020-20573-7.
5. Scheller, I.F., Lutz, K., Mertes, C., Yépez, V.A., and Gagneur, J. (2023). Improved detection of aberrant splicing with FRASER 2.0 and the intron Jaccard index. Am. J. Hum. Genet. 110, 2056–2067. https://doi.org/10.1016/j.ajhg.2023.10.014.
6. Illumina/SpliceAI (2024). (Illumina).
7. Zeng, T., and Li, Y.I. (2022). Predicting RNA splicing from DNA sequence using Pangolin. Genome Biol. 23, 103. https://doi.org/10.1186/s13059-022-02664-4.
8. de Sainte Agathe, J.-M., Filser, M., Isidor, B., Besnard, T., Gueguen, P., Perrin, A., Van Goethem, C., Verebi, C., Masingue, M., Rendu, J., et al. (2023). SpliceAI-visual: a free online tool to improve SpliceAI splicing variant interpretation. Hum. Genomics 17, 7. https://doi.org/10.1186/s40246-023-00451-1.
9. Zhang, D. (2024). dzhang32/ggtranscript.
Objectifs du stage
-
Se familiariser avec les outils mis à contribution : fraser/fraser2, Splice AI, ggtranscript, base de données d'échantillons labkey
-
Evaluer les performances de fraser2 sur des cas témoins en fonction de différents sets de données de contrôles
-
Optimisation globale de fraser2 pour le pipeline bioinformatique de l'équipe et préparation de l'implémentation
-
Evaluer les performances de SpliceAI pour les anomalies d'épissage des maladies rares
-
Utiliser des outils de visualisation des événements aberrants d'épissage
Profil de candidat souhaité
-
Bonne connaissances des langages R (d'autres langages pourront être considérés)
-
Bonne connaissance de l'environnement linux
-
Connaissance des techniques de séquençage haut débit RNA-seq
-
Connaissance en biologie moléculaire des ARN appréciée, en particulier l'épissage
-
Intérêt pour les contextes multidisciplinaires et appliqués
-
Autonomie
-
Capacité de rédaction, de synthèse
-
Bon niveau d'anglais
Encadrement
-
Le stage sera encadré par Yannis DUFFOURD et Valentin VAUTROT
-
Le stagiaire sera hébergé au sein de l'équipe de bioinformatique du laboratoire de Génétique des Anomalies du Développement (GAD), de l'unité Centre de Recherche Translationnelle en Médecine Moléculaire ( Inserm U1231 CTM & UMS Biosand) et du CHU de Dijon.
Candidature
Procédure : Envoyer votre CV et lettre de motivation à yannis.duffourd@u-bourgogne.fr
Date limite : 3 février 2025
Contacts
Yannis Duffourd
yaNOSPAMnnis.duffourd@u-bourgogne.fr
Offre publiée le 20 décembre 2024, affichage jusqu'au 3 février 2025