Apprentissage profond sur les données de spectrométrie de masse 2D en santé

 CDD · Thèse  · 36 mois    Bac+5 / Master   CEA, UMR Médicaments et Technologies pour la Santé, Equipe Sciences des Données · Gif-sur-Yvette (France)  Contrat doctoral

 Date de prise de poste : 2 octobre 2023

Mots-Clés

mathématiques appliquées traitement du signal traitement des images deep learning vision par ordinateur spectrométrie de masse métabolomique biomédical

Description

Sujet de doctorat : Nouvelles approches par réseaux de neurones profonds pour le traitement des données de spectrométrie de masse en métabolomique pour la santé

Contexte : La métabolomique est la caractérisation de toutes les petites molécules (métabolites) présentes dans un échantillon biologique. C’est une approche puissante pour la découverte de nouveaux biomarqueurs diagnostics en clinique. La spectrométrie de masse haute-résolution couplée à la chromatographie liquide (LC-MS) est la technologie de choix en raison de sa sensibilité (Aksenov et al., 2017). Les données obtenues se présentent en 3D, correspondant pour chaque signal détecté à son ratio masse sur charge, son temps de rétention chromatographique, et son intensité. Elles sont de grande taille (plusieurs centaines de milliers de signaux, dont une majorité sont inconnus) et sont complexes (bruit, dérive, redondance). C’est pourquoi leur analyse est une étape clé pour extraire des signatures robustes et obtenir des prédictions performantes.

Parmi les nombreuses stratégies de détection des pics d’intensité (Katajamaa and Oresic, 2005), les plus populaires s’appuient sur une détection des maxima grâce à la transformée en ondelettes continues, d’abord dans la dimension massique, puis temporelle (Smith et al., 2006). Ces algorithmes, qui sont parfois complexes à optimiser, génèrent cependant de nombreux faux positifs et négatifs (Myers et al., 2017). Ceci résulte notamment du fait qu’ils utilisent des modèles de pics qui ne sont pas toujours adaptés à la variabilité des signaux observés. En outre, ces méthodes ne prennent pas en compte la structure multidimensionnelle des données.

Ces dernières années, les réseaux de neurones profonds ont montré des performances prédictives inégalées, notamment dans la classification d’images (LeCun et al., 2015). Ces algorithmes consistent en une succession de couches de convolution pour apprendre une représentation multi-échelle, invariante par translation et robuste aux déformations, suivie d’un réseau fortement connecté pour apprendre la règle de décision. L’ensemble des coefficients est ajusté grâce à l’algorithme de rétropropagation du gradient pour minimiser l’erreur de prédiction.

Très récemment, les algorithmes d’apprentissage profond ont commencé à être utilisés pour le traitement des données LC-MS, considérées comme des images. Les toutes premières publications ont appliqué des architectures de réseaux convolutifs soit à l’image entière (préalablement sous-échantillonnée) pour apprendre une règle de diagnostic clinique (Shen et al., 2022), soit à des imagettes centrées sur les pics, pour apprendre à reconnaitre le signal du bruit (Liu et al., 2019). Toutefois, ces approches n’apportent que des réponses partielles à la question du traitement des données (détection uniquement) et n’exploitent pas l’ensemble de l’information disponible (locale ou globale). La spécificité des données LC-MS (taille de l’image, superposition des signaux, importance du bruit) nécessite de nouvelles architectures d’apprentissage.

Projet : L’objectif du doctorat est de développer de nouveaux algorithmes utilisant les réseaux de neurones profonds pour détecter, quantifier et annoter automatiquement les métabolites à partir des données brutes de LC-MS considérées comme des images.

Une première étape consistera à générer la base d’apprentissage. Les approches de morphologie mathématique et de détection de contours seront notamment utilisées pour extraire automatiquement les images correspondant à des signaux connus dans les données des nombreuses cohortes cliniques humaines du laboratoire. L’enjeu sera de parvenir à utiliser le maximum d’informations pertinentes dans ces données haute résolution tout en gardant une taille d’image raisonnable pour l’apprentissage. Les méthodes d’augmentation permettront d’enrichir la base en vrais positifs et négatifs.

La seconde partie portera sur le développement d’algorithmes d’apprentissage multitâches pour la détection de signaux et la segmentation de motifs d’intérêt. D’une part, une modélisation par nuage de points sera établie pour s’affranchir de l’alignement sur une grille de taille fixée, et conserver ainsi la résolution tout en limitant la taille de l’objet. D’autre part, des mécanismes d’auto-attention spécifiques sur les positions seront développés pour apprendre les interdépendances globales des signaux au sein de motifs et faciliter à leur détection en cas de recouvrement ou de fort bruit de fond, ainsi que leur interprétation.

Les algorithmes seront comparés avec les logiciels de référence sur des données réelles et simulées. Ils serviront ensuite à la recherche de biomarqueurs prédictifs dans le cadre de plusieurs études cliniques en cours au laboratoire.

Consortium : Le doctorat s’effectuera au CEA Saclay dans l’équipe de science des données métabolomiques de l’unité Médicaments et Technologies pour la Santé, en partenariat avec le laboratoire d’analyse des images de l’unité NeuroSpin.

Profil : Nous recherchons un.e candidat.e en mathématiques appliquées avec une spécialisation en traitement d’images et apprentissage profond, et motivé.e par les applications multidisciplinaires (chimie, physique, santé).

Date limite de candidature : 30 mai 2023

Contact : Merci de nous adresser votre CV, lettre de motivation, le nom de deux chercheurs référents, ainsi que vos notes et mentions de masters :

Etienne Thévenot (etienne.thevenot@cea.fr)

Equipe sciences des données

UMR Médicaments et Technologies pour la Santé

CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Web : https://odisce.github.io/

Références

Aksenov,A.A. et al. (2017) Global chemical analysis of biology by mass spectrometry. Nat. Rev. Chem., 1, 1–20.

Katajamaa,M. and Oresic,M. (2005) Processing methods for differential analysis of LC/MS profile data. BMC Bioinformatics, 6, 179.

LeCun,Y. et al. (2015) Deep learning. Nature, 521, 436–444.

Liu,Z. et al. (2019) Trace, Machine Learning of Signal Images for Trace-Sensitive Mass Spectrometry: A Case Study from Single-Cell Metabolomics. Anal. Chem., 91, 5768–5776.

Myers,O.D. et al. (2017) Detailed Investigation and Comparison of the XCMS and MZmine 2 Chromatogram Construction and Chromatographic Peak Detection Methods for Preprocessing Mass Spectrometry Metabolomics Data. Anal. Chem., 89, 8689–8695.

Shen,X. et al. (2022) Deep learning-based pseudo-mass spectrometry imaging analysis for precision medicine. Brief. Bioinform., bbac331.

Smith,C.A. et al. (2006) XCMS:  Processing Mass Spectrometry Data for Metabolite Profiling Using Nonlinear Peak Alignment, Matching, and Identification. Anal. Chem., 78, 779–787.

Candidature

Procédure : Merci de nous adresser votre CV, lettre de motivation, le nom de deux chercheurs référents, ainsi que vos notes et mentions de masters.

Date limite : 15 juin 2023

Contacts

Etienne Thévenot

 etNOSPAMienne.thevenot@cea.fr

 https://odisce.github.io/

Offre publiée le 3 mai 2023, affichage jusqu'au 15 juin 2023