Thesis proposal: Integration of trustworthy AI for patient profiling using healthcare data

 CDD · Thèse  · 36 mois    Bac+5 / Master   Le Centre National de Recherche en Génomique Humaine (CNRGH) · Evry (France)

 Date de prise de poste : 1 octobre 2025

Mots-Clés

IA Interprétabilité Apprentissage fédéré Données de santé Génomique Imagerie

Description

Les méthodes d’apprentissage profond sont aujourd’hui présentes dans de nombreux domaines et s’installent progressivement dans le secteur de la santé et de la recherche clinique. Elles permettent notamment de faire lien entre des sources de données orthogonales issues de la génomique ou encore de l’imagerie.
Cependant, les réseaux de neurones profonds sont souvent encore perçus comme des boîtes noires, où il reste difficile de comprendre certaines prises de décisions, ce qui pose des questions essentielles concernant leur fiabilité et leur transparence. Cette opacité est particulièrement problématique dans des domaines sensibles, tels que la santé, où des erreurs de prédiction peuvent avoir de graves conséquences sur la vie des patients. Dans ce contexte, il est crucial de maîtriser les décisions des modèles afin d’établir la confiance entre les professionnels de santé et les systèmes automatisés.
Des approches visent aujourd’hui à améliorer l’interprétabilité des réseaux de neurones dans l’objectif de garantir leur acceptabilité et l’applicabilité dans la pratique clinique. Cette interprétabilité au sein des modèles d’apprentissage profond s’organise au travers de plusieurs axes de développement en fonction des modèles et des données employées.
Les approches « boîtes noires » s’appuient sur l’observation des liens de causalités entre les données et la prédiction. Souvent, ces approches font référence à une série de méthodes de traitement des données comme la détection des biais et le déséquilibre entre les classes, l’étude de la représentativité des données par l’évaluation de la couverture et l’identification des attributs importants et discriminatifs par des études de sensibilité.
Les approches boîtes blanches vont tenter d’extraire des règles ou de réduire la complexité du modèle en le traduisant sous la forme d’un arbre de décision permettant une meilleure compréhension et caractérisation des décisions prises au travers du modèle.
Des approches hybrides, aussi appelées boîtes grises, s’attelle à proposer une combinaison des approches en s’appuyant sur des connaissances métiers.
Cette problématique d’interprétabilité au sein des données de santé s’accompagne également d’un besoin d’accès et de partage sécurisé à de très grands volumes de données hétérogènes, pour améliorer la qualité des modèles et des prédictions associées.
L’apprentissage fédéré est aujourd’hui l’une des solutions envisagées, permettant un partage d’information, associé à différentes couches d’abstraction et/ou de chiffrement protégeant les utilisateurs et les propriétaires de données.
C’est dans ce contexte que le CEA-CNRGH et le CEA-LIST développent des framework intégrés permettant l’optimisation des modèles d’exploitation des données de santé, leur évaluation, ainsi que leur déploiement dans des environnements fédérés paramétrables comportant une sélection de méthodes de protection des données (Differential privacy, chiffrement homomophe).
Dans ce projet de thèse, nous proposons, au sein de ces frameworks, de développer et d’intégrer de nouvelles méthodes et modules logiciels, permettant l’implémentation d’une IA de confiance dans les systèmes de prise de décision pour le profilage des patients.
En s’appuyant sur une combinaison de données issues de la génomique multi-omique et de l’imagerie, à partir de base de données publiques (TCGA), ou de travaux collaboratifs réalisés au sein du CNRGH (PEPR PROPSY, France Génomique 2025, ALZHEIMER), un démonstrateur sera implémenté et évalué selon divers critères : performance, stabilité, robustesse et interprétabilité en interaction avec les utilisateurs des modèles.
Nous attendons de ces travaux la création d’une architecture innovante, offrant une performance robuste sécurisée pour I’IA de confiance, sur des cas d’usage identifiés en intégrant plusieurs sources de données de santé issues de l’imagerie et de la génomique.

Candidature

Procédure : Plus de détails sur le lien suivant: https://adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=59508&langue=en Les candidatures s'effectuent sur ADUM avec le numéro unique 59508.

Date limite : 22 décembre 2024

Contacts

Mallek MZIOU

 maNOSPAMllek.mziou@cea.fr

 https://adum.fr/as/ed/voirproposition.pl?site=PSaclay&matricule_prop=59508&langue=en

Offre publiée le 3 décembre 2024, affichage jusqu'au 22 décembre 2024