Détection des parcours de soins hospitaliers chez les patients HSA
Stage · Stage M2 · 6 mois Bac+5 / Master Clinique des données, CHU de Nantes · Nantes (France)
Mots-Clés
parcours de soins entrepot de données HSA IA TALN
Description
Co-encadrants :
- Matilde Karakachoff, matilde.karakachoff@chu-nantes.fr, Clinique des données, CHU de Nantes
- Alban Gaignard, alban.gaignard@univ-nantes.fr, Institut du thorax – UMR Inserm 1087, Nantes
- Pacôme Constant Dit Beaufils, pacome.constantditbeaufils@chu-nantes.fr, Service de
Neurologie, CHU de Nantes
- Adrien Coulet, adiren.coulet@inria.fr, Equipe HeKA (Inria, Inserm, Université Paris Cité), Paris
Lieu de réalisation du stage :
Open Space de la Clinique des données, Hôtel Dieu, Immeuble Jean-Monnet,
CHU de Nantes
Contexte
Dans le cadre du projet Neurovasc (PEPR Santé-Numérique financé par l’ANR), nous proposons un stage de Master 2 dans le domaine de la détection et l’analyse des parcours de soins via l’exploitation de l’entrepôt de données de santé du CHU de Nantes (EDSN). En fonction des résultats et du profil du candidat ou de la candidate, ce stage pourra se poursuivre dans le cadre du projet NeuroVasc.
Les accidents vasculaires cérébraux (AVC) constituent la première cause d'handicap dans le monde. Parmi ces AVC, certains sont plus redoutés que d'autres comme les hémorragies méningées. Ces hémorragies méningées ou hémorragie sous arachnoïdienne (HSA) sont la conséquence d'une irruption de sang dans l'espace compris entre le cerveau et la boîte crânienne. Sa survenue entraîne dans 40% des cas un décès ou un handicap sévère chez des sujets âgés entre 40 et 60 ans. La majorité des HSA résulte d'une rupture d'un anévrisme intracrânien, une malformation des artères cérébrales. Une meilleure compréhension des parcours de soins pourrait permettre de sélectionner les trajectoires les plus favorables pour les patients.
Par « parcours de soin » nous entendons la séquence des activités cliniques hospitalières, comme une observation (diagnostique), une intervention (procédure, prise de médicaments), qui composent le processus de prise en charge des patients pour une condition clinique donnée. L’institut du thorax (ITX) – UMR Inserm 1087 travaille depuis de nombreuses années sur la recherche des facteurs individuels liés à la survenue et la rupture des anévrismes intracrâniens. La Clinique des données est chargée de l’exploitation de l’EDSN, l’entrepôt qui intègre les données
médicales et administratives produites par l’activité de soin de l’hôpital. Deux typologies principales de données sont contenues dans l’entrepôt : des données structurées et souvent codées, comme les diagnostics associés à l’hospitalisation (CIM-10), par exemple ; et des données non-structurées sous forme de textes, principalement des comptes rendus de consultation, d’hospitalisation, d’imagerie. Ces données sont regroupées dans une base de données relationnelle Oracle. Son exploitation s’appuie sur eHOP, un outil informatique permettant d’interroger les données. Il est ainsi possible d’exploiter la base soit via une interface graphique pour des requêtes simples, soit par l’écriture directe de requêtes SQL ou de scripts R ou Python pour des interrogations plus complexes. L’équipe HeKA est spécialisée en science des données biomédicales, et notamment dans le développement de méthodes d’intelligence artificielle pour l’aide à la décision et la découverte de connaissances biomédicales.
Objectif du stage
L’objectif du stage est de créer un pipeline d’analyses des documents contenus dans l’EDSN afin de détecter et décrire le parcours de soin hospitalier des patients ayant eu une HSA. Ensuite seront appliquées des méthodes d’analyse de séquences pour la description et la classification de différents profils de parcours de soin détectés.
Etapes
1) Phénotypage : Identification et sélection des patients concernés à partir de l’EDSN
2) Pre-processing : Formatage, nettoyage et pseudonymisation des données provenant de l’EDSN
3) Définition des variables d’intérêt pour la définition des profils (historique) et des parcours de patients (séquence d’intervention ou observation depuis la prise en charge), en collaboration avec les neurologues du CHU de Nantes. Extraction de ces variables à partir de données structurées et textuelles, par l’utilisation d’outils de traitement automatique des langues
4) Description statistique de la population et des parcours et visualisation des parcours
5) Mise en œuvre de méthodes standard de classification (e.g., Régression logistique, Forêt d’arbre aléatoire, XGBoost) pour classer les patients selon leur évolution clinique la plus probable (retour à la maison, soin de réadaptation, décès). Cela sera fait dans un premier temps à partir seulement des profils des patients (les données historiques à l’admission); puis à partir de la combinaison (profil de patient, prise en charge).
6) Adaptation d’une approche d’apprentissage profond par renforcement pour proposer des parcours individualisés et optimaux (voir Muyama et al., AIIM, 2024). Une méthode que l’on peut également considérer à minima pour nous y comparer est celle décrite par Ye et al., 2020.
Compétences requises
Ce projet de stage est proposé à un.e étudiant.e de niveau M2, ayant des bonnes compétences en sciences des données et motivé par leur application dans le domaine médical. La maîtrise des langages Python et SQL sont requis, celle du langage R est un plus. Un intérêt pour les méthodes de traitement automatique des langues et d’apprentissage machine serait un atout.
Contexte du travail
L’étudiant.e travaillera dans le cadre d'une collaboration interdisciplinaire sous la direction de Matilde Karakachoff (statisticienne/épidémiologiste - Clinique des données, CIC Inserm 1413, Pôle Hospitalo- Universitaire 11 : Santé Publique (C2D)), Pacôme Constant Dit Beaufils (neurologue/épidémiologiste, Service de neurologie CHU de Nantes et équipe 1 à l’Institut du Thorax Inserm UMR 1087 / CNRS UMR 6291 (ITX)), Alban Gaignard (ingénieur de recherche - ITX, CNRS, Inserm, Université de Nantes) et Adrien Coulet (chercheur en informatique - Equipe HeKA, Inria, Inserm, Université Paris Cité).
Le/la stagiaire sera intégré.e aux réunions hebdomadaires de la C2D et de l’ITX.
Valorisation individuelle
- Travail en équipe pluridisciplinaire : data scientist, ingénieur TAL, statisticien, médecin,épidémiologiste, data manager, chef de projet
- Exploitation d’une base de données massives en santé
- Monté en compétence en intelligence artificielle
- Rédaction d’un article scientifique
Références bibliographiques
- Guo S, Li X, Liu H, Zhang P, Du X, Xie G, Wang F. Integrating Temporal Pattern Mining in Ischemic Stroke Prediction
and Treatment Pathway Discovery for Atrial Fibrillation. AMIA Jt Summits Transl Sci Proc. 2017 Jul 26.
- Muyama, L., Neuraz, A., Coulet, A. Machine Learning Approaches for the Discovery of Clinical Pathways from Patient
Data: A Systematic Review. Journal of Biomedical Informatics, To Appear, 2024.
- Muyama, L., Neuraz, A., Coulet, A. Deep reinforcement learning for personalized diagnostic decision pathways using
electronic health records: A comparative study on anemia and systemic lupus erythematosus. Artificial Intelligence
in Medicine, 2024, 157, pp.102994. DOI: 10.1016/j.artmed.2024.102994.
- X. Ye, Q. T. Zeng, J. C. Facelli, D. I. Brixner, M. Conway, B. E. Bray, Predicting optimal hypertension treatment
pathways using recurrent neural networks, Int. J. Med. Inform. 139 (2020) 104122.
- Karakachoff M, Goronflot T, Coudol S, Toublant D, Bazoge A, Constant Dit Beaufils P, Varey E, Leux C, Mauduit N,
Wargny M, Gourraud PA, Implementing a Biomedical Data Warehouse From Blueprint to Bedside in a Regional
French University Hospital Setting: Unveiling Processes, Overcoming Challenges, and Extracting Clinical Insight. JMIR
Med Inform 2024;12:e50194. doi: 10.2196/50194
Candidature
Procédure :
Date limite : None
Contacts
Matilde Karakachoff
maNOSPAMtilde.karakachoff@chu-nantes.fr
Offre publiée le 20 novembre 2024, affichage jusqu'au 20 décembre 2024