Machine learning pour l'étude de la résistance des plantes aux pathogènes

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRAE · Palaiseau (France)  Gratification INRAE

 Date de prise de poste : 1 mars 2022

Mots-Clés

Machine learning statistique génétique

Description

 

Contexte

La compréhension des mécanismes génétiques de résistance des plantes aux pathogènes est un enjeu crucial pour le développement de variétés résistantes dans l'objectif de réduire l'utilisation des pesticides. On souhaite par ailleurs identifier des mécanismes de résistance robustes, i.e. susceptibles de perdurer en condition de température élevé correspondant à un scénario de changement climatique. Toutefois il n'existe actuellement que peu de méthodes dédiées à l'identification conjointe de régions génomiques impliquées dans la réponse immunitaire chez le pathogène et la plante.

 

Objectifs du stage

Les objectifs du stage sont les suivants :

  1. identifier simultanément, chez les deux partenaires de l’interaction plante-pathogène les régions génomiques impliquées dans la réponse immunitaire des plantes et dans les mécanismes de virulence des pathogènes,
  2.  déterminer si l'efficacité des mécanismes de résistance aux pathogènes précédemment identifiés est stable lorsque la plante (et le pathogène) est soumise à des conditions de températures élevées.

Le candidat devra développer des procédures de sélection de variables d’une part dans le cadre d’un modèle linéaire généralisé régularisé (type sélection de variables pour la régression ridge), et d’autre part dans le cadre d’un modèle de réseau de neurones profond multi-classes. Les procédures développées devront être implémentées de manière efficace afin de passer à l’échelle et d’être appliquées à de gros jeux de données.

Les procédures développées seront appliquées à l’analyse d’un jeu de données expérimentales constitué

i) d’une collection constituée de 24 variétés d’une espèce sauvage de tomate (Solanum pimpinellifolium), chaque variété étant génotypée pour 3,7 millions de SNPs (i.e. la séquence de chaque variété a été lue en 3,7 millions de positions couvrant l'ensemble du génome); 

ii) d’un panel de 96 souches de la bactérie phytopathogène  Ralstonia solanacearum, chaque souche de bactérie étant génotypée pour 120,000 SNPs.

Des mesures de résistance des 24 variétés de tomate ont été obtenues par inoculation de chaque variété par chacune des 96 souches de la bactérie à deux températures (28°C et 32°C) lors de 3 répétitions biologiques.

 

Compétences recherchées

Solides compétences en apprentissage statistique

Bonne maîtrise des méthodes d’analyse multivariée, du modèle linéaire et de ses extensions.

Connaissances des modèles de réseau de neurones.

Programmation en R / Python.

Intérêt pour les applications statistiques en génétique.

 

Unité d’accueil, ressources mises à disposition

Ce stage s'inscrit dans le cadre d'une collaboration entre l'équipe SOLsTIS de l'UMR MIA-Paris et l’équipe REACH (plant REsistance pathways dynamics and Adaptation to Climate cHange) du Laboratoire des Interactions Plantes Microorganismes Environnement (LIPME) du centre INRAE Occitanie. Il sera encadré par Céline Lévy-Leduc (Professeur AgroParisTech en statistique), Tristan Mary-Huard (Chercheur INRAE en statistique) et Richard Berthomé (Chercheur INRAE).

Le stage se déroulera dans l’UMR de statistique d’AgroParisTech (Campus Paris Saclay). Le stagiaire disposera d’un ordinateur personnel et pourra utiliser les ressources informatiques (serveurs + cluster de calcul) de l’unité. Le stagiaire percevra la gratification INRAE. La durée du stage (entre 5 et 6 mois) et la date de commencement peuvent être adaptées en fonction des contraintes du candidat.

 

Poursuite en thèse

Le stage pourra être suivi par une thèse, qui fera l’objet d’une collaboration avec l’entreprise Syngenta.

 

Contacts

Tristan Mary-Huard, maryhuar@agroparistech.fr

Céline Levy-Leduc, celine.levy-leduc@agroparistech.fr

 

Références

[1] Wang, Miaoyan and Roux, Fabrice and Bartoli, Claudia and Huard-Chauveau, Carine and Meyer, Christopher and Lee, Hana and Roby, Dominique and McPeek, Mary Sara and Bergelson, Joy. Two-way mixed-effects methods for joint association analysis using both host and pathogen genomes, PNAS, vol. 115, n. 24, p. E5440--E5449, 2018, doi 10.1073/pnas.1710980115.

[2] George, Andrew W., Arunas Verbyla, and Joshua Bowden. "Eagle: multi-locus association mapping on a genome-wide scale made routine." Bioinformatics 36.5 (2020): 1509-1516.

Candidature

Procédure : Contacter les encadrants par mail

Date limite : 31 août 2022

Contacts

Tristan Mary-Huard

 trNOSPAMistan.mary-huard@agroparistech.fr

Offre publiée le 14 janvier 2022, affichage jusqu'au 31 août 2022