Intégration multimodale avec des blocs de données manquantes dans l'étude des effets des RI
CDD · Thèse · 36 mois Bac+5 / Master Autorité de sûreté nucléaire et de radioprotection (ASNR) · France/Fontenay-aux-Roses (France)
Date de prise de poste : 1 octobre 2025
Mots-Clés
Intégration des données multimodales Données manquantes par blocs, Biologie des systèmes
Description
Problématique et Objectifs:
Des études épidémiologiques montrent l’effet d’une exposition à des rayonnements ionisants (RI) sur le développement de maladies cardiovasculaires (MCV, comme l'athérosclérose ou les accidents vasculaires cérébraux) pour des doses fortes à modérées (au-dessus de 500 mGy). La capacité statistique actuelle est contestée pour qualifier l’effet d’une exposition aux RI sur les MCV à des doses faibles compte tenu des biais, tel que les facteurs de confusion, au premier rang desquels le stress, connu pour activer le système nerveux sympathique impliqué dans les MCV. Or les MCV constituent une préoccupation forte de santé publique, responsable de la mort de près de 17,9 millions de pers./an selon l’Organisation Mondiale de la Santé.
Pour faire progresser la compréhension des conséquences d’une exposition aux RI à faibles doses, les analyses s’appuient sur les données multi-omiques de la réponse biologique d’un organisme vivant. Toutefois, la diversification des types de données utiles à la réduction des facteurs de confusion induit une augmentation du risque de biais lié aux données manquantes, pour lequel le plafond acceptable établi entre 20 % et 30 % est ainsi souvent dépassé. Considérant qu’éliminer les données manquantes peut réduire gravement la précision de l’analyse, la thèse vise à construire une méthode d’analyse qui permette de traiter les données multi-omiques tout en intégrant les données manquantes à l’analyse des effets d’une exposition faible aux RI sur les MCV.
Travaux -méthodes et moyens:
Face à l’abondance croissante de données dans l’étude des effets des rayonnements ionisants (RI) à faible dose (RNA-seq, métabolomique, lipidomique…), l’exploitation efficace des données est confrontée au défi de la gestion des données manquantes induites par la diversification des données prise en compte. En effet celle-ci génère un ensemble d’échantillons/sujets inobservés pour certains types de données, formant des blocs des données manquantes. Ainsi, des approches méthodologiques spécifiques sont nécessaires pour intégrer les différentes modalités de données, en tenant compte des problématiques liées aux données manquantes et à la présence de facteurs confondants (dont les co-expositions), afin d'identifier les mécanismes d’action impliqués dans la réponse d’un organisme à un stress particulier.
S’appuyant sur des données déjà générées, le.a candidat.e sera impliqué.e dans le développement d’algorithmes et de modèles statistiques pour l'analyse de grands ensembles de données biologiques, afin d’y intégrer convenablement le traitement des données manquantes et des facteurs confondants, notamment des co-expositions (Goujon E et al., 2024). Le.a candidat.e aura la charge de développer, tester et évaluer les outils statistiques en s’appuyant sur les méthodes proposées dans la littérature (Peltier C et al., 2023 ; Baena-Miret S et al. 2024)
Les deux premières années de la thèse seront consacrées au développement méthodologique pour l’imputation des données et l’incorporation des facteurs dans une analyse intégrative. Et la dernière année sera consacrée à l’analyse des données et à l’interprétation des résultats par une analyse d’enrichissement des voies biologiques.
La publication des résultats dans des revues internationales et la participation à des conférences sont attendues, notamment au sujet du développement méthodologique relatif à l’imputation des données multi-tableaux et des apports de l’intégration multimodale à l’étude des effets des facteurs de co-exposition sur les maladies cardio-vasculaires.
Références:
Elen Goujon, Olivier Armant, Clément Car, Jean-Marc Bonzom, Arthur Tenenhaus, and Imène Garali. Batch Effect Correction in a Confounded Scenario: a Case Study on Gene Expression of Chornobyl Tree Frogs. In Roberta Gori, Paolo Milazzo, and Mirco Tribastone, editors, Computational Methods in Systems Biology, pages 89–107, Cham, 2024. Springer Nature Switzerland.
Peltier C, Le Brusquet L, Lejeune FX, Moszer I, Tenenhaus A (2022). “Missing Values in RGCCA: Algorithms and Comparisons.” In 8th International Conference on Partial Least Squares Structural Equation Modeling (PLS’22).
Baena-Miret S, Reverter F, Vegas E. A framework for block-wise missing data in multi-omics. PLoS One. 2024 Jul 23;19(7):e0307482. doi: 10.1371/journal.pone.0307482. PMID: 39042603; PMCID: PMC11265675.
Profil recherché:
Le ou la candidat(e) doit être titulaire d’un master en Mathématique appliquées, Statistiques (parcours data et/ou analyse et modélisation des données) ou domaine connexe avec un intérêt pour la recherche en biologie ou en santé. Le ou la candidat(e) devra posséder un solide bagage théorique en algèbre linéaire et en statistique. Afin de valider et d’appliquer les méthodes développées, il est demandé la maitrise d’outils de programmation tels que R et Python. Un bon niveau d’anglais est essentiel. La capacité à travailler en équipe multidisciplinaire sera appréciée.
Informations complémentaires:
Le.a doctorant.e effectuera 60% de son temps de recherche au sein du LRAcc à l’ASNR sous l’encadrement de Dr. GARALI Imène (imene.garalizineddine@irsn.fr) et 40% au L2S (CentraleSupelec, Paris) sous la direction du Pr. TENENHAUS Arthur (arthur.tenenhaus@centralesupelec.fr). Des réunions régulières avec les biologistes du LRTOX à l’ASNR sont prévues.
Candidature
Procédure : Les dossiers de candidatures devront être composés d’un cv détaillé, des lettres de recommandation, d’une lettre de motivation mettant en évidence les raisons de la candidature, ainsi que des relevés de notes associés au diplôme le plus élevé.
Date limite : 15 avril 2025
Contacts
Imène GARALI
imNOSPAMene.garalizineddine@asnr.fr
Offre publiée le 15 février 2025, affichage jusqu'au 15 avril 2025