Mots-Clés
machine learning
agroécologie
épigénétique
génomique
bioinformatique
statistique
Description
Apprentissage automatique et épigénotypage :
un nouveau levier pour améliorer la prédiction des phénotypes chez les plantes dans un contexte agroécologique
Pitch : Offre de thèse (3 ans, financement déjà obtenu via le PEPR Agroécologie et numérique) en machine learning à l’interface avec l’amélioration agronomique et l’épigénétique chez les plantes, co-encadrée par Agrocampus Rennes et Université/INRAE Orléans.
La thèse proposée (financement déjà acquis) se déroulera dans le cadre du programme national de recherche PEPR « Agroécologie et Numérique : données, agroéquipements et ressources génétiques au service de la transition agroécologique et de l’adaptation aux aléas climatiques » qui est une des mesures de la stratégie d’accélération SADEA (Systèmes agricoles durables et équipements agricoles contribuant à la transition écologique) de France 2030. Il est doté d’un budget de 65 millions d’euros pour une durée de huit ans et copiloté par INRAE et Inria https://www.pepr-agroeconum.fr/le-programme .
Plus précisément, la thèse se déroulera dans le cadre du Projet lauréat de l’appel 2023 intitulé ADAAPT pour Agroécologie et Agriculture numérique via l’épigénétique des animaux et des plantes (https://www.pepr-agroeconum.fr/les-projets-finances/ressources-genetiques/laureat-aap/adaapt ). 4 thèses sur 4 espèces différentes (dont la thèse proposée ici) seront financées dans le cadre de ce projet (2025-2030) avec diverses interactions.
Contexte et problématique :
Les transitions agroécologiques des systèmes agroalimentaires actuels se déroulent dans un contexte de pression croissante due aux changements climatiques. Pour améliorer la durabilité de nos systèmes agricoles dans ce contexte, il est essentiel de comprendre comment les individus peuvent s’adapter aux changements environnementaux.
La sélection génétique ne représente qu’une partie de la variation phénotypique et les modèles actuels supposent que le classement des individus n’est pas affecté par les conditions environnementales. Or, il a été démontré, chez diverses espèces, que les perturbations environnementales peuvent influencer l’épigénome et les caractères phénotypiques des organismes.
Face à ces défis, qui concernent à la fois les espèces végétales cultivées et les animaux d’élevage, de nouveaux outils de phénotypage doivent être développés pour surveiller l’adéquation de l’individu (plante ou animal) et de son environnement (exposome). Les modifications épigénétiques, telles que la méthylation de l’ADN, sont des marques moléculaires impactant la diversité phénotypique des organismes.
Objectifs :
Le défi scientifique du projet est d’utiliser des technologies numériques de type apprentissage automatique pour exploiter les données épigénétiques afin d’optimiser l’utilisation des ressources génétiques végétales (ici le peuplier), y compris leur microbiote (holobionte), dans une perspective agroécologique. Cela permettra également de modéliser les trajectoires phénotypiques des plantes cultivées dans des itinéraires agroécologiques.
Ses objectifs spécifiques incluent :
● La caractérisation des profils épigénétiques des ressources génétiques conservées en France dans divers exposomes liés à la transition agroécologique comme la ressource en eau sur une espèce modèle de ligneux cultivé, le peuplier.
● L’intégration des données génomiques, transcriptomiques, épigénétiques, spectrales et du microbiote pour la modélisation agricole à l’aide de méthodes numériques.
Le projet ADAAPT propose de relever ces défis en fusionnant des compétences concernant les cultures, leur microbiote, physiologie, génétique, épigénétique, épigénomique et technologies numériques pour l’agriculture, issues de 13 laboratoires différents d’INRAE, de deux équipes de l’Institut Agro, d’une équipe de l’Université d’Orléans et d’une équipe de l’INRIA. Un tel consortium permet de rassembler des biologistes ayant une expertise solide dans divers domaines (généticiens, physiologistes, microbiologistes) et des numériciens (statisticiens et bio-informaticiens). Il est important de noter que le projet ADAAPT se déroulera avec 4 thèses (dont le présent sujet) qui formeront un réseau d’échanges entre doctorants et encadrants et toute la communauté du projet ADAAPT et plus largement du PEPR Agroécologie et numérique. Cela offre un cadre particulièrement favorable à l’innovation.
Plan de travail :
Des données de méthylome, génome, transcriptome, de phénotypes, mais également spectrales (NIRS) sur plus de 200 individus provenant de populations naturelles de peuplier, déjà disponibles et issues de projets précédents (ANR Sybiopop et ANR EPITREE) seront analysées au cours de cette thèse. De plus, de nouvelles données acquises dans le cadre du projet ADAAPT viendront compléter ces jeux de données. En effet, >200 individus génotypés (puce SNP) issus d’un croisement entre deux espèces de peupliers (GIS peuplier), installés en pépinière depuis 2 ans et suivis en termes de phénotypage seront épigénotypés lors du projet. Quatre axes majeurs ont été retenus pour cette analyse :
1. Méthodes descriptives de la diversité épigénétique des ressources génétiques chez le peuplier
2. Étude et développement de méthodes d’imputation de données épigénétiques
3. Tests d’association utilisant l’épigénomique pour identifier des loci majeurs en amélioration (production biomasse, qualité du bois, interaction avec le microbiote, tolérance à la sécheresse, tolérance à la rouille).
4. Test et développement de modèles de prédiction phénotypique
Profil du candidat :
Une formation en statistique et/ou bioinformatique, avec des notions avancées en code R et Python seront souhaitables. Des notions de biologie et/ou génomique et bioinformatique seraient un plus. Apprécier le travail entre équipes (3 unités impliquées sur 2 sites) tout en développant ses capacités d’autonomie seront indispensables.
Conditions :
CDD de 3 ans débutant fin 2025 (Octobre à Décembre)
Rémunération mensuelle brute du PEPR Agroécologie et numérique projet ADAAPT : ~1750 €
Informations administratives :
ED Santé, Sciences Biologiques et Chimie du Vivant (SSBCV) n°549 https://www.univ-orleans.fr/fr/univ/recherche/ecoles-doctorales/ed-549-sante-sciences-biologiques-et-chimie-du-vivant-ssbcv
Directeur de thèse : Stéphane Maury (Professeur Université d’Orléans, P2e)
Co-directeur de thèse : Mathieu Emily (Professeur Institut Agro Rennes-Angers)
Co-encadrant : Harold Duruflé (Chargé de Recheche INRAE, BioForA Orléans)
Localisation : Institut Agro (Rennes)
P2e: Laboratoire de Physiologie Écologie Environnement (équipe ARCHE)
https://www.univ-orleans.fr/fr/p2e/equipes/arbres-et-reponses-aux-contraintes-hydriques-et-environnementales
Institut Agro - UMR IRMAR (équipe de statistique) : https://irmar.pages.math.cnrs.fr/statistique/ et https://www.institut-agro-rennes-angers.fr/ecole/departements-denseignement-et-de-recherche/statistique-et-informatique
BioForA : Laboratoire en biologie intégrée pour la valorisation de la diversité des arbres et de la forêt (équipe GA2) https://www6.val-de-loire.inrae.fr/biofora
Quelques références bibliographiques des laboratoires d’accueil :
Amaral J, Ribeyre Z, Vigneaud J, Sow MD, Fichot R, Messier C, Pinto G, Nolet P, Maury S (2020) Advances and Promises of Epigenetics for Forest Trees. Forest. doi:10.3390/f11090976
Dugé de Bernonville T, Daviaud C, Chaparro C, Tost J, Maury S (2022). From Methylome to Integrative Analysis of Tissue Specificity. In: Courdavault, V., Besseau, S. (eds) Catharanthus roseus. Methods in Molecular Biology, vol 2505. Humana, New York, NY. doi: 10.1007/978-1-0716-2349-7_16
Agius, D.R., et al. 2023. Exploring the crop epigenome: a comparison of DNA methylation profiling techniques. Frontiers in Plant Sciences, 14:1181039. doi: 10.3389/fpls.2023.1181039
Lesur I, Rogier O, Sow MD, Boury C, Duplan A, Garnier A, Senhaji-Rachik A, Civan P, Daron J, Delaunay A, Duvaux L, Benoit V, Guichoux E, Le Provost G, Sanou E, Ambroise C, Plomion C, Salse J, Segura V, Tost J, Maury S. A strategy for studying epigenetic diversity in natural populations: proof of concept in poplar and oak. J Exp Bot. 2024 Sep 27;75(18):5568-5584. doi: 10.1093/jxb/erae266.
Trontin Jean-François, Mamadou Dia Sow, Alain Delaunay, Ines Modesto, Caroline Teyssier, Isabelle Reymond, Francis Canlet, Nathalie Boizot, Claire Le Metté, Audrey Gibert, Cristian Chaparro, Christian Daviaud, Jörg Tost, Celia Miguel, Marie-Anne Lelu-Walter, Stéphane Maury, Epigenetic memory of temperature sensed during somatic embryo maturation in 2-yr-old maritime pine trees, Plant Physiology, Volume 197, Issue 2, February 2025, kiae600, https://doi.org/10.1093/plphys/kiae600
Chateigner, A., Lesage-Descauses, M.-C., Rogier, O., Jorge, V., Leplé, J.-C., Brunaud, V., Roux, C.P.-L., Soubigou-Taconnat, L., Martin-Magniette, M.-L., Sanchez, L., et al. (2020). Gene expression predictions and networks in natural populations supports the omnigenic theory. BMC Genomics 21, 1–16. doi:10.1186/s12864-020-06809-2
Kakoulidou, I.; Avramidou, E.V.; Baránek, M.; Brunel-Muguet, S.; Farrona, S.; Johannes, F.; Kaiserli, E.; Lieberman-Lazarovich, M.; Martinelli, F.; Mladenov, V.; Testillano, PS, Vassileva, V., Maury, S. (2021) Epigenetics for Crop Improvement in Times of Global Change. Biology, 10, 766. doi:10.3390/biology10080766
Sow MD, Le Gac AL, Fichot R, Lanciano S, Delaunay A, Le Jan I, Lesage-Descauses MC, Citerne S, Caius J, Brunaud V, Soubigou-Taconnat L, Cochard H, Segura V, Chaparro C, Grunau C, Daviaud C, Tost J, Brignolas F, Strauss SH, Mirouze M, Maury S (2021) RNAi suppression of DNA methylation affects the drought stress response and genome integrity in transgenic poplar. New Phytologist, 232, 80-97
Wade, A. R., Durufle, H., Sanchez, L., & Segura, V. (2021). eQTLs are key players in the integration of genomic and transcriptomic data for phenotype prediction. bioRxiv. doi:10.1101/2021.09.07.459279
Durufle, H., Dejardin, A., Jorge, V., Pegard, M., Pilate, G., Rogier, O., … & Segura, V. (2024). Natural variation in chalcone isomerase defines a major locus controlling radial stem growth variation among Populus nigra populations. bioRxiv, 2024-10. doi: 10.1101/2024.10.21.618920
F. Hébert, D. Causeur and M. Emily (2023) Adaptive Handling of Dependence in High-Dimensional Regression Modeling, Journal of Computational and Graphical Statistics , Vol. 32, pages 213-225.
M. Sassi, J. Bronsard, G. Pascreau, M. Emily, P.-Y. Donnio, M. Revest, B. Felden, T. Wirth, Y. Augagneur (2022) Forecasting Staphylococcus aureus Infections Using Genome-Wide Association Studies, Machine Learning, and Transcriptomic Approaches, mSystems Vol. 7, No. 4.
F. Hébert, D, Causeur and M. Emily (2022) Omnibus testing approach for gene-based gene-gene interaction, Statistics in Medicine. Vol. 41, No. 15, pages 2854- 2878.
Pour candidater :
Merci de transmettre les éléments ci-dessous :
- Une lettre faisant état de vos motivations pour ce projet ;
- Un Curriculum Vitae avec les notes L3, M1, M2 (semestre 1);
- Les informations de contact de 1 à 2 personnes référentes.
à
- Stéphane Maury (stephane.maury@univ-orleans.fr)
- Mathieu Emily (mathieu.emily@institut-agro.fr)
- Harold Duruflé (harold.durufle@inrae.fr)
Date limite de candidature : fin mai 2025.