Développement d'une procédure de segmentation pour la détection d'admixture en génétique

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Laboratoire INRAE AgroParisTech MIA Paris-Saclay · Palaiseau (France)  Gratification INRAE

 Date de prise de poste : 1 mars 2024

Mots-Clés

Méthodes de segmentation génétique des populations statistique

Description

Contexte


En génétique des populations, l'admixture désigne un évènement d'introduction de matériel
génétique provenant de deux ou plusieurs populations distinctes dans une population donnée. Un tel
événement peut notamment être la conséquence de migrations ou de croisements entre populations.
L'étude de l'admixture permet donc de mieux comprendre l'historique de formation des populations
considérées et d'identifier les échanges de matériel génétique qui ont contribué à façonner ces
populations au cours du temps. Lorsque l'admixture se produit, le génome des individus de la
population admixée se caractérise par une mosaïque de signatures génétiques provenant de leurs
ancêtres appartenant aux différentes populations. Du point de vue statistique, il est possible de
détecter les évènements d'admixture en se basant sur les profils de fréquences alléliques obtenus
pour chacune des populations impliquées. Ainsi la statistique F3 [1] est un indice statistique utilisé
pour la détection d'évènements d'admixture entre trois populations. Bien que couramment utilisé, cet
indice est généralement calculé marqueur par marqueur (i.e. position par position le long du
génome), ce qui limite la capacité de détection de l'admixture lorsque l'évènement à détecter est
diffus (de faible intensité) sur toute une région chromosomique.

Objectifs du stage :
L'étudiant(e) devra développer une procédure de segmentation de signal pour l'identification des
régions chromosomiques admixées. Dans un premier temps l'étudiant(e) devra se familiariser avec les
principes théoriques de la statistique F3 et son utilisation dans la détection d'admixture,
ainsi qu'avec les algorithmes de segmentation du signal. Une procédure inspirée de [2] sera ensuite
implémentée.
La méthodologie développée sera appliquée à deux jeux de données. Le premier, issu du projet 1000
Genomes [3], est constitué d'un ensemble d'individus échantillonnés dans plusieurs populations
humaines issus de tous les continents. On considèrera ici les populations admixées d'Amérique du
Sud, ainsi que les populations européennes et africaines, représentant les populations de référence.
Le deuxième jeu de données est constitué d'un panel de 450 variétés de haricots, collectées dans le
cadre du projet européen INCREASE [4]. Ces variétés proviennent

- d'Amérique du Sud, couvrant 2 zones géographiques correspondant à deux pools génétiques très caractérisés,
- d'Europe, les variétés de ce groupe correspondant à des individus admixés entre les deux
pools génétiques précédents.


Compétences requises
Ce stage s'adresse à un(e) étudiant(e) de Master 2 dans l'un de ces domaines : science des données,
statistiqueapprentissage automatique. Une maîtrise de la programmation en R, une expérience de
travail avec de grands ensembles de données, ainsi qu'un intérêt pour les applications en biologie, et
plus particulièrement en génétique sont requis.


Environnement de travail
Le travail sera réalisé dans le cadre du projet européen INCREASE. Vous travaillerez dans l'équipe
SOLsTIS de l'unité MIA Paris-Saclay, située à AgroParisTech (Palaiseau), sous la supervision de Julie
Aubert et Tristan Mary-Huard.
La durée du stage envisagée est de 5 à 6 mois, avec une date de début comprise entre février et avril
2024 suivant la disponibilité de l'étudiant(e).


Contact
Les candidat(e)s intéressé(e)s doivent postuler en envoyant un CV et une lettre de motivation à :
julie.aubert@inrae.fr
tristan.mary-huard@agroparistech.fr


Références
[1] Patterson, N., Moorjani, P., Luo, Y., Mallick, S., Rohland, N., Zhan, Y., ... & Reich, D. (2012). Ancient
admixture in human history. Genetics, 192(3), 1065-1093.
[2] Mary-Huard, T., & Rigaill, G. (2023). A genome-wide segmentation approach for the detection of
selection footprints. bioRxiv, 2023-11.
[3] Siva, N. (2008). 1000 Genomes project. Nature biotechnology, 26(3), 256-257.
[4] Bellucci, E., Mario Aguilar, O., Alseekh, S., Bett, K., Brezeanu, C., Cook, D., ... & Papa, R. (2021). The
INCREASE project: Intelligent Collections of food‐legume genetic resources for European agrofood
systems. The Plant Journal, 108(3), 646-660.

Candidature

Procédure : Les candidat(e)s intéressé(e)s doivent postuler en envoyant un CV et une lettre de motivation à : julie.aubert@inrae.fr tristan.mary-huard@agroparistech.fr

Date limite : 1 mai 2024

Contacts

Tristan Mary-Huard

 trNOSPAMistan.mary-huard@agroparistech.fr

 https://mia-ps.inrae.fr/index.php/node/611

Offre publiée le 15 janvier 2024, affichage jusqu'au 1 mai 2024