Thèse en Machine Learning pour l’exploration de la sous-dominance dans les génomes polyploïdes

 CDD · Thèse  · 36 mois    Bac+5 / Master   IRHS / LAREMA · ANGERS (France)  2100€ brut mensuel (2024), 2200 € (2025), 2300€ (2026)

 Date de prise de poste : 1 octobre 2024

Mots-Clés

Apprentissage statistique Prédiction génomique Evolution

Description

Thèse : Machine Learning pour l’exploration de la sous-dominance dans génomes polyploïdes

Laboratoire d’accueil : IRHS (Institut de Recherches en Horticulture et Semence)

Co-encadrement : LAREMA (Laboratoire Angevin de Recherches en MAthématiques)

Contexte socio-économique et scientifique :

Les duplications anciennes de génomes (WGD), très fréquentes chez les plantes, semblent correspondre à des périodes d'extinction ou de changement global. Le pommier a subi une WGD datée à 27 Mya. La synténie entre les chromosomes ohnologues est encore très bien conservée ce qui fait du pommier un organisme de choix pour étudier l’évolution des gènes et des familles de gènes post-WGD. La compréhension du rôle des chromosomes dupliqués et de leur contribution à l’élaboration du phénotype est un enjeu majeur dans le contexte de changements climatiques.

Hypothèses et questions scientifiques :

La sous-dominance génomique a été démontrée chez plusieurs allopolyploïdes. Nous avons démontré pour la première fois chez un autopolyploïde un phénomène similaire chez le pommier (Lallemand et al. 2023). Nous avons baptisé ce phénomène sous-dominance chromosomique par analogie aux allopolyploïdes. La question scientifique posée est :

Peut-on confirmer et capter ce déséquilibre grâce au machine learning et notamment la prédiction génomique?

Principales étapes de la thèse et démarche

On procèdera tout d’abord à une étude par simulation in silico à partir de la population de pommiers publiée par Jung et al, 2022. On dispose ainsi de données SNPs de haute-densité (303 329 SNPs) pour 534 individus répartis dans six pays européens. On simulera le phénotype en considérant différents liens possibles entre phénotype et génotype aux QTLs (additivité, épistasie, dominance, non linéarité …). En termes de machine learning, les méthodes privilégiées seront le Genomic BLUP, les forêts aléatoires, le Lasso, l'Elastic-Net, les SVM, les RKHS, les réseaux de neurones. Pour chaque architecture de trait simulée, on pourra ainsi extraire la meilleure méthode d’apprentissage statistique capable de capter le déséquilibre.

Dans un deuxième temps on cherchera à améliorer les méthodes statistiques existantes en prédiction génomique. Etant donnée la proximité entre les modèles mixtes en génomique et en statistique spatiale, on s'inspirera de récents résultats mathématiques en statistique spatiale (Wikle et Zammit-Mangion 2023). A titre d’exemple on pourra s’intéresser aux réseaux de neurones et aux forêts aléatoires.

- Réseaux de neurones : Chen et al. (2021) introduisent un réseau de neurones profond où la dépendance spatiale est modélisée par l'ajout d'une couche supplémentaire permettant d'approximer le processus spatial à l'aide d'une base de fonctions.

- Forêts Aléatoires : Saha et al. (2021) proposent, afin de construire un arbre de décision, de remplacer à chaquefractionnement de noeud, le critère de moindres carrés par une optimisation prenant en compte la structure de corrélation spatiale induite par un processus Gaussien.

Compétences scientifiques et techniques requises pour le candidat

  • Apprentissage statistique (Forêts aléatoires, réseaux de neurones, Lasso …), Statistique en grande dimension, Modèle mixte
  • Maîtrise des langages de programmation en R et/ou Python
  • Des connaissances en évolution ou en biologie végétale seraient un plus

Bibliographie

- Chen, W., Li, Y., Reich, B. J., & Sun, Y. (2021). Deepkriging: Spatially dependent deep neural networks for spatial prediction. Statistica Sinica:10.5705/ss.202021.0277

- Jung, M., Keller, B., Roth, M., Aranzana, M. J., Auwerkerken, A., Guerra, W., ... & Patocchi, A. (2022).  Genetic architecture and genomic predictive ability of apple quantitative traits across environments. Horticulture research, 9, uhac028.

- Lallemand, T. et al. (2023), Insights into the Evolution of Ohnologous Sequences and Their Epigenetic Marks Post-WGD in Malus Domestica, Genome Biology Evolution, 15(10): evad178

- Saha, A., Basu, S., & Datta, A. (2021). Random forests for spatially dependent data. Journal of the American Statistical Association, 118(541), 665-683.

- Wikle, C. K., & Zammit-Mangion, A. (2023). Statistical deep learning for spatial and spatiotemporal data. Annual Review of Statistics and Its Application, 10, 247-270.

Pour candidater : Déposer un dossier à l’ED VAAME

https://theses.doctorat-bretagneloire.fr/vaame/campagne-2024

Personnes à contacter :

Charles-Elie RABIER : charles-elie.rabier@univ-angers.fr

Claudine LANDES : claudine.landes@univ-angers.fr

Fabien PANLOUP : fabien.panloup@univ-angers.fr

Candidature

Procédure : envoyer un mail aux 3 personnes contacts et déposer un dossier sur le site de l'ED VAAME - rubrique Institut de Recherche en Horticulture et Semences (IRHS) - ou bien rubrique Laboratoire Angevin de Recherche en MAthématiques (LAREMA)

Date limite : 17 mai 2024

Contacts

Charles-Elie Rabier

 chNOSPAMarles-elie.rabier@univ-angers.fr

 https://theses.doctorat-bretagneloire.fr/vaame/campagne-2024

Offre publiée le 30 avril 2024, affichage jusqu'au 17 mai 2024