Offre de thèse en génomique humaine - Multiomics à Dijon
CDD · Thèse · 36 mois Bac+5 / Master Inserm U1231 GAD - CHU DIJON · DIJON (France) Selon barème bourse doctorale
Date de prise de poste : 16 octobre 2023
Mots-Clés
Bioinformatique, génomique, maladies rares, machine learning, épigénétique, séquençage, intégration, thèse
Description
Introduction :
La révolution du séquencage à haut-débit permet l’identification grandissante de nouveaux gènes impliqués en pathologies génétiques humaines. Si aujourd’hui grâce aux déploiements massifs de ces technologies, environ 50 % des patients se voient sortir de l’impasse diagnostique dans laquelle ils étaient enfermés, l’autre moitié nécessite le développement et l’emploi de nouvelles approches moléculaires et bioinformatiques afin de repousser les limites de notre connaissance du génome humain.
Un certain nombre de ces techniques sont aujourd’hui devenues accessibles dans le contexte de l’étude du génome humain telles que le RNASeq, le ChIPSeq, le Hi-C, la protéomique, les technologies de séquençage à lectures longues, la cartographie optique, ainsi que l’étude de la méthylation.
L’emploi de ces technologies génère une quantité de données très importante. Ces données sont donc volumineuses mais aussi particulièrement complexes à analyser. De nombreuses méthodes existent pour analyser bioinformatiquement chaque type de données individuellement. Ces méthodes sont pour la plupart assez robustes et ont démontré leur efficacité permettant d’extraire de l’information et de la connaissance issue de ces expériences à haut-débit.
L’intégration des données est un processus qui consiste en la combinaison de ces données provenant de sources hétérogènes dans le but d’extraire plus d’informations que la simple somme des informations extraites de chacune des technologies individuellement.
Cependant l’intégration des données demeure un challenge bioinformatique et biologique très important. Il est nécessaire de développer de nouvelles approches et de nouvelles méthodes pour aboutir à cet objectif permettant de faire progresser notre connaissance du génome humain.
Devant un problème aussi complexe, il n’existe donc pas d’approche universelle, mais une autre approche de la génomique moderne tend à s’imposer actuellement, celle-ci est le « machine learning » qui est en quelque sorte une sous-catégorie de l’intelligence artificielle. Cette méthode consiste en l’utilisation d’algorithmes informatiques pour découvrir des motifs récurrents dans des ensembles de données diverses. Ces algorithmes sont également capables d’une forme d’apprentissage autonome qui permet d’améliorer leurs performances dans ces exercices de classification de données. Une fois entrainés ceux-ci seront donc capables de retrouver ces motifs dans de nouvelles données.
Ces approches sont régulièrement utilisées dans le cadre de la génomique du cancer ou de la microbiologie, mais sont malheureusement encore peu envisagées dans les maladies génétiques rares. C’est pourquoi nous proposons d’effectuer un travail de recherche sur l’application de ces méthodes informatiques innovantes sur des données hétérogènes épigénomiques humaines.
Materiel & Méthode
L’équipe de recherche Inserm U1231 – GAD a été sélectionnée lors d’un appel à projets de recherche dans le cadre du plan national maladie rare 3 concernant la résolution de l’impasse diagnostique dans les maladies rares. Notre projet, sélectionné parmi plus d’une centaine d’autres, se nomme MultiOmixCare et est coordiné par le Dr Antonio Vitobello. Ce projet de recherche consiste donc en la mise en œuvre d’une série de techniques moléculaires permettant d’explorer plus profondemment le génome et l’épigénome de 40 patients atteints de maladies rares pour lesquels une première exploration a déjà été réalisée par le séquençage de leurs génomes respectifs. Ce projet est en cours de réalisation et les données issues des différentes techniques mises en œuvre seront disponibles au cours de l’année 2023. (Figure 1)
Figure 1 : Stratégie du projet multiomixcare
Figure 2 : Plan des travaux de thèse
La première partie du travail de thèse (année 1) consistera en la collection et l’aggrégation de données transcriptomiques et épigénétiques provenant de bases de données publiques telles que SRA, GEO, GTEX, Encode. Un important travail d’organisation des données, de réduction de leurs dimensions pour les rendre comparable et de collecte de métadonnées (pathologies, phénotypes, variations génomiques, etc.) sera alors effectué. Le laboratoire dispose également de centaines d’expériences de RNASeq reliées à des informations génomiques permettant d’établir des signatures moléculaire pour ces pathologies. L’aggrégation de ces données permettra d’atteindre une taille critique permettant l’utilisation de méthodes de machine learning.
Il s’agira donc ensuite de déployer de nouvelles méthodes de machine learning (année 2) à partir de toutes ces données collectées qui permettront d’établir les modèles de signatures épigénomiques. Notre laboratoire travaille en forte collaboration avec le Centre de Calcul de l’Université de Bourgogne (CCUB) qui dispose, gràce à des investissement des laboratoires du campus incluant le notre, de moyens de calculs adaptés pour ces nouvelles formes d’analyse. (20 GPU Tesla v100, incluant des tensors cores spécialisés pour l’IA). Ces modèles devront être entrainés avec précaution en incluant les métadonnées pertinentes pour établir des classifieurs pour chaque signature associée à une pathologie génétique rare. Une partie des données (~50%) sera réservée pour tester les modèles finaux afin de vérifier que la classification proposée par ces modèles est pertinente et fonctionnelle.
Finalement, lorsque les modèles seront établis, chaque nouvelle donnée pourra être comparée aux modèles précédemment entrainés. Ainsi cette classification permettra de rapprocher chaque profil moléculaire à une signature éventuellement déterminée et donc de déterminer des pistes moléculaires pour l’explication de pathologies génétiques rares encore inexpliquées. Les signatures ne pouvant être rapprochées d’un modèle existant seront collectés pour enrichir les algorithmes et continuer à perfectionner leurs modèles d’apprentissage.
Résultats attendus
Les résultats de ces travaux de recherche conduiront donc à plusieurs éléments important pour les stratégies de recherche à venir de l’équipe :
Le principal résultat consistera en l’établissement de méthodes d’aggrégation de données, de normalisation de celles-ci afin de les rendre comparables et de la création d’outils de classification de nouvelles signatures basés sur les technologies de machine learning.
L’établissement de nouvelles signatures épigénomiques reliées à des évènements génomiques permettant ainsi de comparer de nouvelles signatures à celles que nous auront établi à partir de données existantes. Ces données pourront être organisées, stockées et mises à disposition par l’intermédiaire d’une base de données innovante (type NoSQL) permettant leur interrogation simple et rapide.
Enfin nous prévoyons donc la découverte de nouvelles pistes moléculaires gràce à ces méthodes de classification qui permettront de réduire significativement l’impasse diganostique des patients atteints de maladies génétiques rares.
Financement
Le financement de ce projet de thèse est déja acquis, l'offre de thèse est remise en ligne suite à un désistement de dernière minute.
L'étudiant sera intégré au sein d'une équipe de recherche dynamique, au sein des groups bioinformatique et multiomique de l'équipe. L'équipe dispose aussi d'un cluster de calcul universitaire intégrant des milliers de coeurs CPU et GPU.
Le directeur de thèse est M. Antonio Vitobello - MCU-PH.
L'encadrant est M. Yannis Duffourd - bioinformaticien.
Candidature
Procédure : Envoyer un mail incluant CV et lettre de motivation
Date limite : 30 novembre 2023
Contacts
Yannis Duffourd
yaNOSPAMnnis.duffourd@u-bourgogne.fr
Offre publiée le 25 septembre 2023, affichage jusqu'au 30 novembre 2023