Stage machine learning

 Stage · Stage M2  · 6 mois    Bac+5 / Master   CRISTAL · Villeneuve d'Ascq (France)

 Date de prise de poste : 1 mars 2022

Mots-Clés

COV, optimisation combinatoire, machine learning

Description

Stage machine learning - projet Pathacov, 6 mois

Lieu : Laboratoire CRISTAL, Equipe ORKAD Université de Lille, France

Contact: Dr. Julie JACQUES (julie.jacques@univ-lille.fr)

Date de début : mars 2021 (ou selon candidat)

Contexte

L’objectif principal de l’équipe ORKAD est d’exploiter simultanément l’optimisation combinatoire et l’extraction de connaissances pour résoudre des problèmes d'optimisation. Bien que les deux domaines scientifiques se soient développés de manière plus ou moins indépendante, la synergie entre l'optimisation combinatoire et l'extraction de connaissances offre une opportunité d'améliorer les performances et l'autonomie des méthodes d'optimisation grâce à la connaissance et, d'autre part, de résoudre efficacement les problèmes d'extraction de connaissances grâce aux méthodes de recherche opérationnelles. Nos approches sont principalement basées sur l’optimisation combinatoire mono et multi-objective.

Ce poste s’intègre dans le programme de coopération territoriale européenne INTERREG France Wallonie-Vlaanderen visant à favoriser les échanges économiques et sociaux entre quatre régions frontalières : les Régions Hauts-de-France et Grand Est en France ; la Wallonie, la Flandre occidentale et orientale en Belgique. Le projet Européen Interreg “Pathacov” regroupe 12 partenaires de part et d’autre de la frontière franco-belge associant des équipes médicales, des spécialistes en data mining, en chimie analytique, en nano matériaux, en capteurs électroniques de gaz, en électronique et traitement de signal et en nez électronique. L’objectif du projet« Pathacov » est de concevoir des outils innovants de diagnostics précoces et non invasifs de pathologies sous forme de nez électronique capable de détecter, dans l’haleine de patients, des biomarqueurs caractéristiques de maladies telles que des cancers du poumon ou du sein. Par exemple la survie du cancer broncho-pulmonaire est de 80% à 5 ans si le dépistage est précoce et 15% en cas de diagnostic tardif. Le projet a donc des impacts sociétaux très importants.

Dans ce cadre, l’équipe ORKAD est en charge de l'identification des COVs impliqués dans le cancer des poumons grâce à des méthodes de datamining innovantes basées sur l'optimisation combinatoire multi-objective. L'identification de ces COVs permettra aux autres partenaires de réaliser un dispositif de petite taille permettant une détection précoce du cancer des poumons.

L'identification des COVs se fera à partir de l'analyse des données issues de patients atteints de cancer des poumons et à partir de l'extraction de connaissances à partir de ces données. L'extraction de connaissances se fera principalement via des techniques de sélection d'attributs permettant de sélectionner un petit sous-ensemble d'attributs (ici des COVs) significatifs permettant de séparer les patients atteints d'un cancer des poumons de ceux non atteints

Missions

Le stage est divisé en 2 parties. Le stagiaire recruté sera en charge de :

Partie 1 :

  • récolte des données auprès des partenaires
  • prise en main des données
  • adaptation de métaheuristiques existantes pour réaliser la meilleure sélection de COV
  • comparer les résultats obtenus par rapport à des méthodes classiques de la littérature (ex: Random Forest)
  • logiciel “clef en main” d’extraction des COV :
    • chargement d’un fichier COV
    • exécution du pipeline de traitement de données et d'extraction des COV
    • affichage des COV obtenus
    • documentation du logiciel
    • tests unitaires
    • versionning du code

Partie 2:

  • analyse des caractéristiques (meta-features) du jeu de données COV
  • création de benchmarks synthétiques de caractéristiques similaires


Livrables :

- rédaction des rapports d’avancement - livrable de code (C++)

- rapport de synthèse (récapitulatif des COV trouvés)

Profil recherché :

- Futur Bac +5 en informatique

- Compétences en programmation Python et fouille de données, machine learning

- Bonne capacité de travail en équipe et très bonne communication

- Des connaissances en C++ et recherche opérationnelle, optimisation combinatoire seraient un plus.

Candidature

Procédure : Par mail à l’adresse iepathacov@univ-lille.fr joindre CV + lettre de motivation (avant 30/01)

Date limite : 30 janvier 2022

Contacts

Julie Jacques

 ieNOSPAMpathacov@univ-lille.fr

Offre publiée le 3 décembre 2021, affichage jusqu'au 30 janvier 2022