Ingénieur.e en bioinformatique / apprentissage automatique

 CDD · IR  · 12 mois (renouvelable)    Bac+8 / Doctorat, Grandes Écoles   Unité de Catalyse et Chimie du Solide (UCCS) & E2P2L (Solvay) · Lille (France)

 Date de prise de poste : 1 avril 2023

Mots-Clés

bioinformatique apprentissage automatique biocatalyse enzymologie

Description

Sujet du poste 

Développement de pipeline de machine learning visant la sélection prédictive d’enzymes pour la dégradation de polymères.

Contexte

Ce poste d’ingénieur.e de recherche s’inscrit dans la mise en place de la chaire industrielle PLASTLIOOP2.0. Cette chaire, coordonnée par le Prof. Sébastien Paul et Dr. Egon Heuson, rassemble 4 laboratoires académiques (UCCS, BioEcoAgro, CRIStAL et E2P2L) et un industriel (SOLVAY) autour de la problématique de l’utilisation des polymères dans le cadre d’une économie circulaire. Les travaux de la chaire seront articulés autour de la plateforme de criblage catalytique REALCAT (équipement d’excellence permettant les
recherches à haut-débit en catalyse chimique, biologique ou hybride) présente sur le site Lillois.

Une des principales forces d’innovation de PLASTILOOP2.0 réside dans l'utilisation d’outils de machine learning utilisés pour la compréhension et la prédiction des systèmes catalytiques chimiques et biologiques mis en œuvre.
En effet, en plus de développer de nouvelles voies de dégradation et de synthèse à l’aide de catalyseurs originaux, PLASTILOOP2.0 aura pour tâche la mise en œuvre d’approches de machine learning permettant de mettre relation les données expérimentales, et les descripteurs principaux des catalyseurs chimiques et biologiques concernés. Le but ultime étant de pouvoir envisager la prédiction de l’activité de nouveaux catalyseurs, à partir des descripteurs sélectionnés, dans des conditions expérimentales données. Cette approche bénéficiera de la capacité de criblage à haut-débit inégalée de la plateforme REALCAT, générant la quantité de données nécessaires pour la phase d’apprentissage, permettant à terme de considérablement accélérer la mise au point de ces catalyseurs au regard des
approches plus traditionnelles des projets préexistants.

Objectifs

L’ingénieur.e recruté.e sur le présent poste sera attaché.e à la partie biocatalyse du projet (un autre recrutement a été réalisé concernant la partie catalyse chimique). En conséquence, il.elle fera équipe avec le Doctorant et le Post- Doctorant du lot de travail dédié à la dégradation biocatalytique des polymères de PLASTILOOP2.0, à l’aide de microorganismes et d’enzymes. Il.elle aura alors pour objectif principal d’étudier les liaisons, à l’aide d’outils en machine learning, entre les données générées à l’issue des tests de criblage (rendements de dégradation, nature des produits générés, état des polymères, croissance de la biomasse, métabolites produits, etc.), les conditions réactionnelles (température, pH, solvants, agitation, oxygénation, etc.) et les descripteurs des catalyseurs mis en jeu, à commencer par le génome des microorganismes criblés. Ces données pourront être complétées dans un second temps avec les séquences et les propriétés des enzymes identifiées par le Post-Doctorant comme les plus efficaces pour la dégradation des polymères, afin d’établir un lien plus direct entre le génome des souches, et leur action sur la dégradation. Au regard de cet objectif, l’ingénieur.e participera avec les autres membres du lot de travail à la définition des données les plus pertinentes à générer, au regard des contraintes des algorithmes mis en œuvre. Au final, ce nouveau pipeline devrait permettre de pouvoir explorer plus rapidement les banques de données génomiques pour rechercher les souches qui possèdent les descripteurs recherchés et qui seront les plus à même d’effectuer la dégradation voulue. Il prendra la forme d’un script python permettant aux chercheur.euse.s du laboratoire de l’utiliser à l’avenir au-delà de PLASTILOOP2.0 si cela s’avère pertinent.


Concrètement la mission peut se résumer en les objectifs suivants :
Principaux :

  • Tester et comparer des approches de machine learning pour sélectionner des descripteurs pertinents chez les catalyseurs criblés, en corrélation avec les données expérimentales de criblage.
  • Développer le pipeline d’analyse implémentant notamment les approches retenues précédemment afin d’analyser des données nettoyées (exploration, sélection des souches/enzymes, sélection de descripteurs, et prédiction).

Secondaires :

  • Participer à la finalisation d’un pipeline en machine learning pour le clustering et la sélections d’enzymes et de souches prometteuses pour la dégradation des polymères ciblés, testées par la suite lors des criblages du projet afin de générer les données expérimentales nécessaires à l’objectif principal.

Compétences requises :

  • Connaissance conceptuelle approfondie des modèles statistiques courants, de l'apprentissage automatique et notamment des algorithmes d'apprentissage profond.
  • Expérience pratique des aspects clés d’un pipeline de données tels que le nettoyage des données, l'exploration, la validation des modèles.
  • Bonnes compétences en programmation en Python (de préférence), ou R.

Compétences recommandées :

  • Connaissance des outils récents de traitement du langage naturel, tels que les modèles Transformer.
  • Connaissance des méthodes d'optimisation, des plans d'expériences, des méthodes de surface de réponse, de la modélisation de substitution ou de l'apprentissage par renforcement.
  • Connaissance de la théorie des graphes et de son application à l'apprentissage automatique, comme les réseaux convolutifs graphiques.

Durée : 1 an (renouvelable 1 an) – Avril 2023 à Mars 2024

Candidature

Procédure : Envoyer un mail à : egon.heuson@centralelille.fr et bilille@univ-lille.fr

Date limite : None

Contacts

Egon Heuson

 egNOSPAMon.heuson@centralelille.fr

Offre publiée le 17 mars 2023, affichage jusqu'au 16 mai 2023