Super-résolution d'images médicales pour l'inférence sur myélogrammes numérisés
Stage · Stage M2 · 6 mois Bac+5 / Master LS2N, CHU de nantes · Nantes (France)
Date de prise de poste : 3 février 2025
Mots-Clés
Myélogramme, Super-résolution, Apprentissage profond, Modèles génératifs, Diffusion latente
Description
Sujet de stage
De nombreuses études publiées dans la littérature amènent différentes applications de l'apprentissage profond à la cytologie et plus précisément sur des images de lames de moelle (myélogrammes) numérisées. Parmi les jeux de données publiés, on note une grande variabilité à la fois dans le type d'annotation et dans la méthode de numérisation. Si l'annotation dépend de l'application recherchée, comme la segmentation ou la classification, la modalité de numérisation des images semble faire débat.
On trouve en effet beaucoup d'études automatisant l'analyse sur myélogrammes numérisés à faible grossissement, au 40x, mais un certain nombre a également opté pour un grossissement plus élevé, également plus fidèles aux méthodes des praticiens. Récemment, Lewis et al. ont argumenté que la numérisation à l'objectif $40x a pour avantage d'être plus rapide, couramment automatisée par des scanners de lame dédiés aux études histologiques et de ne pas nécessiter d'huile à immersion, qui entraîne un coût d'entretien supplémentaire. Si ces arguments sont indiscutables, un niveau de détail fin reste nécessaire pour identifier des types cellulaires dont les morphologies sont proches et potentiellement pathologiques, d'autant plus dans un domaine où la répétabilité des annotations inter-experts est fluctuante.
Pouvoir augmenter artificiellement les images 40x, peu coûteuses et rapides à obtenir, vers une résolution plus fine et détaillée correspondant à un grossissement plus élevé constitue donc un enjeu important. Cette tâche d'augmentation de la résolution d'une image source est appelée super-résolution d'images. Avec l'évolution des applications d'algorithmes d'apprentissage profond ces dernières années, cette problématique s'est vue automatisée avec succès via des architectures génératives et auto-encodeur d'abord, et plus récemment par des modèles de diffusion latente. Ces dernières années, ces modèles ont de surcroît été appliqués à diverses modalités d'imagerie médicales, bien que rarement en cytologie.
Au cours d'un travail de thèse de doctorat qui précède ce stage, un jeu de données de 74 myélogrammes numérisés a été constitué. Au total, 243 zones de lectures de grandes dimensions (de l'ordre du gigapixel) ont été capturées à deux niveaux de grossissement différents, 40x et 60x. Les images 60x ont ensuite fait l'objet d'annotations par des hématologistes experts afin d'automatiser la détection de types cellulaires. L'objectif de ce stage est de mettre en place des méthodes basées sur les modèles génératifs et de diffusion de l'état de l'art afin d'augmenter artificiellement la résolution des images sources 40x vers le 60x. Les performances de l'algorithme de détection d'objet mentionné précédemment, sur les images 60x et sur les 40x augmentées seront alors comparées.
Détail des objectifs
L'objectif principal de ce projet est de conduire un état de l'art des méthodes de sur-échantillonnage d'images médicales, sur différentes modalités d'imagerie, pour l'appliquer à nos données. Le déroulement du stage est anticipé de la façon suivante :
1. Etat de l'art des méthodes existantes dans les différents domaines de l'imagerie médicale.
2. Mise en place d'un processus d'entraînement et d'évaluation uniformisé de ces méthodes.
3. Benchmark sur notre jeu de donnnées de myélogrammes numérisés à faible et fort grossissements
4. Etude comparative des performances de modèles de détection d'objet sur images 60x natives vs 40x artificiellement augmentées.
Sous réserve de l'accomplissement de cette tâche, différentes pistes pourront être explorées pour améliorer les performances de sur-échantillonnage. Sur ces aspects le candidat devra alors être force de proposition. Divers leviers d'action seront envisagés :
- Mise en place d'un pré-entraînement non-supervisé ou auto-supervisé.
- Modifications du paradigme d'entraînement (adaptation de la fonction de coût, utilisation de convolutions dilatées, de modules d'attention...).
Compétences attendues
Dès l'obtention de la bourse de financement du stage, le sujet sera publié en vue d'entretiens de recrutement d'un candidat.
En termes de compétences demandées, le candidat devra avoir une bonne maîtrise du langage de programmation Python ainsi que des notions d'analyse d'images et d'apprentissage automatique et profond. Une expérience préalable de développement de modèles d'apprentissage profond dans le framework PyTorch est également nécessaire.
Une ou plusieurs expériences avec des architectures de types GAN et/ou Auto-Encodeurs, ou du moins des notions approfondies sur ces dernières, sont grandement recommandées.
Des notions ou un intérêt pour les sciences du vivant et l'hématologie sont également appréciées.
Candidature
Procédure : Envoyer CV et lettre de motivation à Cédric De Almeida Braga (cedric.dealmeidabraga@chu-nantes.fr)
Date limite : 15 janvier 2025
Contacts
Cédric De Almeida Braga
ceNOSPAMdric.dealmeidabraga@chu-nantes.fr
Offre publiée le 5 décembre 2024, affichage jusqu'au 15 janvier 2025