Algorithms and Machine Learning for ZooArcheology and Paleontology

 Stage · Stage M2  · 6 mois    Bac+5 / Master   CRIStAL - UMR CNRS 9189 · Villeneuve d'Ascq (France)  taux horaire standard

 Date de prise de poste : 6 janvier 2025

Mots-Clés

Bioinformatics, Aide à la décision, Optimisation, Apprentissage, Evolution, Paléontologie

Description

Contexte scientifique du stage

La paléoprotéomique est l’étude des échantillons archéologiques ou paléontologiques, tels que des ossements, par des approches expérimentales de spectrométrie de masse. Les spectres de masses permettent ensuite l’identification des espèces d’origine des échantillons grâce à des peptides marqueurs [Warinner2022]. Ces peptides sont des courtes séquences protéiques susceptibles d’être obtenues par digestion et ionisées, et représentatives d’une espèce donnée. On peut donc les voir comme des peptides diagnostics ou des code-barres [Buckley2009]. Dans ce stage, nous souhaitons étudier le caractère explicatif des peptides marqueurs, en lien avec la taxonomie des espèces. Le stage mêlera les expertises de l’équipe Bonsai en algorithmique des séquences et bioinformatique et celles de l’équipe Orkad en optimisation combinatoire pour le machine learning.

Objectifs du stage

Les peptides marqueurs permettent collectivement de caractériser une espèce ou un groupe d’espèces proches. Pour un clade  donné, l’ensemble des peptides est souvent utilisé comme une boîte noire, sans prise en compte de la conservation de certains marqueurs entre espèces ou au contraire de leur caractère discriminant. Nous voulons regarder les questions suivantes: peut-on inférer un arbre de décision "simple" sur les peptides marqueurs expliquant l’assignation taxonomique ? Cet arbre de décision est-il consistant avec une taxonomie admise ? Peut-on inférer d'autres types de règles: modalités fréquentes ou corrélées avec un clade, par exemple ? Quelles sont les espèces pour lesquelles la prédiction est robuste, et a contrario, les espèces pour lesquelles la prédiction est sensible au bruit expérimental ? Cette analyse se fera à deux niveaux d’information: celui des séquences peptidiques, et celui des masses des peptides. La connaissance du premier niveau entraîne la connaissance du second niveau, mais la réciproque n’est pas vraie.

De nombreuses approches à base de métaheuristiques pour générer des arbres de décision ont été proposées [RiveraLopez2021,DhaenensJourdan2022]. Des approches prenant en compte les hiérarchies dans les données ont également été suggérées [Otero2010]. Dans ce stage, il s’agira de déterminer l'approche la plus appropriée aux données et d'adapter la modélisation (représentation d'une solution, voisinage, évaluation) pour trouver la plus appropriée aux particularités des données. Nous privilégierons une modélisation de type boîte blanche afin d’avoir une bonne exploitation des modèles générés. En particulier une réflexion sera menée sur le critère d'évaluation à utiliser pour l'optimisation: Qu’est-ce qui détermine qu’un arbre de décision répond au problème ? Cela demandera d’adapter aux données la notion d'accuracy utilisée habituellement pour les arbres de décision. Il faudra également intégrer la notion de robustesse au bruit pour permettre la prise en compte de peptides marqueurs manquants ou artéfactuels. 

Ce travail mènera au développement d’un logiciel qui sera intégré à la suite PAMPA (Protein Analysis by Mass Spectrometry for Ancient Species) développée par l’équipe BONSAI : https://github.com/touzet/pampa/. En termes de données, l’équipe BONSAI a rassemblé une compilation d’environ 200 espèces mammifères, pour lesquelles un ensemble de 14 peptides marqueurs est annoté. Cela comprend des peptides consensuels au niveau de la communauté des paléoprotéomiciens, déterminés de manière expérimentale par spectrométrie de masse (https://docs.google.com/spreadsheets/d/1ipm9fFFyha8IEzRO2F5zVXIk0ldwYiWgX5pGqETzBco) ou générés par homologie.

Ce stage pourra donner lieu à une poursuite en thèse.

Equipes d'accueil

Le stage se déroulera au sein de l'unité de recherche CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille, UMR CNRS 9189) de l’Université de Lille, avec l'encadrement de deux équipes: ORKAD et BONSAI. L’équipe ORKAD (https://orkad.univ-lille.fr/) développe des méthodes pour l’optimisation combinatoire et l’extraction de connaissances avec des approches à base de méta-heurisitique. L’équipe BONSAI (https://www.cristal.univ-lille.fr/bonsai/) travaille en bioinformatique, avec le développement d’algorithmes et de logiciels pour l’analyse de données biologiques (génomes, gènes, protéines). Le sujet de ce stage s’inscrit également dans le cadre d’une collaboration pluridisciplinaire avec la plateforme de protéomique de l’Université de Lille.

Compétences recherchées

Programmation Python et connaissances en machine learning (classification supervisée). Goût pour l'algorithmique. Curiosité scientfique pour le domaine d'application (zooarchéologie ou paléotonlogie). Des connaissances en recherche opérationnelle, optimisation combinatoire, technologies web ou bioinformatique seraient un plus.


Modalités du stage

Lieu : Laboratoire CRISTAL, Campus Scientfique, Villeneuve d’Ascq (https://www.cristal.univ-lille.fr/)

Date de début : à partir de janvier 2025 (selon possibilité du candidat ou de la candidate)

Durée: 4 à 6 mois

 

Modalités de candidature

Joindre CV et lettre de motivation à

  • Julie Jacques – Maître de conférences, équipe ORKAD :julie.jacques@univ-lille.fr

  • Hélène Touzet – Directrice de recherche CNRS, équipe BONSAI: helene.touzet@univ-lille.fr

Références

[Warinner2022] Paleoproteomics. Warinner C, Korzow Richter K, Collins MJ. Paleoproteomics. Chem Rev. 2022 Aug 24;122(16):13401-13446. doi:10.1021/acs.chemrev.1c00703

[Buckley2009] Buckley M, Collins M, Thomas-Oates J, Wilson JC. Species identification by analysis of bone collagen using matrix-assisted laser desorption/ionisation time-of-flight mass spectrometry. Rapid Commun Mass Spectrom. 2009;23(23):3843-3854. doi:10.1002/rcm.4316

[DhaenensJourdan2022] C. Dhaenens, and L. Jourdan. Metaheuristics for Data Mining: Survey and Opportunities for Big Data . Annals of Operations Research 314, no 1 : 117‑40. doi.org/10.1007/s10479-021-04496-0.

[RiveraLopez2021] Rivera-López R, Canul-Reich J, Mezura-Montes E, & Cruz-Chávez MA. (2021). Induction of decision trees as classification models through metaheuristics. Swarm Evol. Comput., 69 (2021)

 

Candidature

Procédure : Joindre CV et lettre de motivation à Julie Jacques – Maître de conférences, équipe ORKAD :julie.jacques@univ-lille.fr Hélène Touzet – Directrice de recherche CNRS, équipe BONSAI: helene.touzet@univ-lille.fr

Date limite : 1 décembre 2024

Contacts

Hélène Touzet

 heNOSPAMlene.touzet@univ-lille.fr

Offre publiée le 19 novembre 2024, affichage jusqu'au 1 décembre 2024