Traduction du site en cours

Le site de la SFBI est en cours de traduction en anglais.

Thèse on DeepLearning sur la classification des séquences d’ADN environnemental des plantes

 Autre · Thèse  · 36 mois    Bac+5 / Master   IRD-UMMISCO (Unité de Modélisation Mathématique et Informatique des Systèmes Complexes) · PARIS (France)  1975.00 euros brut/mois

 Date de prise de poste : 1 avril 2024

Mots-Clés

deep learning, metabarcoding, metagenomics, plant biodiversity

Description

Contexte

Actuellement, la diversité végétale est menacée par la destruction, la fragmentation et la dégradation des habitats, la surexploitation et les espèces envahissantes, ainsi que par le changement climatique et les impacts anthropiques. La disparition des plantes affectera d'autres groupes d'organismes et l'environnement d'une manière qui n'est pas encore comprise, car les plantes ont des dépendances fonctionnelles importantes dans les réseaux d'organismes, telles que la pollinisation, le mutualisme, le parasitisme, la dispersion et l'herbivorie. Une identification et une surveillance accélérées sont nécessaires pour mieux comprendre et atténuer les forces à l'origine des changements actuels dans la diversité végétale. Dans ce contexte, les codes-barres ADN dérivés du séquençage à haut débit d'échantillons environnementaux (metabarcoding) ont fourni un outil très puissant pour améliorer la caractérisation et compréhension du monde naturel.

Le projet européen METAPLANTCODE engagera un consortium d'équipes de recherche de huit pays européens pour fournir une harmonisation des protocoles et des bases de données à travers l'Europe et un soutien aux nouvelles méthodes, technologies et approches nécessaires à l'identification rapide et précise des espèces végétales en utilisant des données de métabarcoding à partir d'échantillons environnementaux. Dans ce contexte, l'équipe UMMISCO de l'IRD dirige un des Work-Packages qui développera des approches d'apprentissage profond (Deep-Learning) afin d'améliorer le profilage taxonomique des plantes à partir de différentes sources de données (données de séquence issues du metabarcoding de différents marqueurs moléculaires, référentiels textuels descriptifs de biodiversité d'habitats).

Objectifs

Nous proposons un contrat de thèse de 36 mois pour travailler autour du développement de classificateurs Deep-Learning (DL) de données de metabarcoding de plantes. L’objectif principaux est d’étudier différents enchâssements numériques (basés sur les kmer avec des techniques d'enchâssement de phrases, encodage à chaud des séquences d'ADN), architectures DNN (réseaux neuronaux convolutionnels (CNN), autoencodeurs) et mécanismes d'attention (Bi-LSTM (mémoire bidirectionnelle à long terme), réseaux neuronaux récurrents (RNN)) pour la classification taxonomique de plantes dérivées de données de metabarcoding de trois marqueurs moléculaires cibles définis dans le projet, ainsi que l’évaluation des performances du modèles DL avec les approches bio-informatiques classiques en ce qui concerne la précision, le rappel, l'estimation de l'abondance, le taux de classification et la rapidité. Pour ça, on utiliserait des données réels provenant des different écosystèmes naturels qui seront fournis par des partenaires du projet ainsi que des données simulées de composition connu. Finalement, des approches multimodales pourrions être explorée à partir de l’intégration des classifieurs de séquence avec des classifieurs dérivé des données textuels des description des habitats qui seront développées au sein des autres work-packages du projet afin d'améliorer la classification des plantes à partir de multiples modalités de données.

 

Profil

  • Diplôme requis : Master/Ingénieur (BAC+5)
  • Formation : Bio-informatique, Biologie computationnel, ingénieur en informatique
  • Connaissances :
    • Utilisation courante de Linux et des langages de scripting
    • Programmation avancée en Python ; connaissance on langages alternatifs comme R représenterait un plus.
    • Connaissances en algorithmes de Deep Learning
    • Connaissance de base en approches bio-informatiques pour la classification taxonomique à partir de données métagénomiques.

Accueil

L'Unité Mixte Internationale de Modélisation Mathématique et Informatique des Systèmes Complexes (UMMISCO UMI 209) rassemble des chercheurs, enseignants-chercheurs et personnels administratifs dynamiques et passionnés travaillant majoritairement au Sud (dans nos centres au Sénégal, Maroc, Cameroun et Vietnam) par des approches de pointe en mathématiques et en informatique répondant à des questions liées au développement durable. UMMISCO est spécialisée dans la modélisation dont les applications stimulantes s’inscrivent dans les domaines de la santé ou ceux de l’environnement durable.

  • Lieu d’accueil : UMI 209 UMMISCO. 32 Avenue Henri Varagnat. 93143 Bondy Cedex / Sorbonne Université. 91 boulevard de l’Hôpital 75013 Paris.
  • Type de contrat : Doctorat
  • Durée du contrat : 36 mois
  • Début souhaité : 1 Avril 2023

 

Candidature

Procédure : Envoyer CV et lettre de motivation à eugeni.belda@ird.fr

Date limite : 1 février 2024

Contacts

 Eugeni Belda Cuesta

 euNOSPAMgeni.belda@ird.fr

 https://www.ummisco.fr

Offre publiée le 27 décembre 2023, affichage jusqu'au 1 février 2024