Thèse en génomique microbienne ou informatique appliquée

 CDD · Thèse  · 36 mois    Bac+5 / Master   Dynamic (INRAE & Université de Lorraine) ou LORIA (Université de Lorraine, C?RS, INRIA) · Nancy (France)

 Date de prise de poste : 1 septembre 2023

Mots-Clés

éléments génétiques mobiles

Description

Mise au point d’une méthode de recherche automatisée de limites d’éléments mobiles dans les chromosomes bactériens à l’aide du raisonnement à partir de cas

Thèse proposée par

Nathalie Leblond-Bourget DynAmic, equipe ICE-TeA, UL, INRAE (nathalie.leblond@univ-lorraine.fr) Jean Lieber LORIA, equipe K, UL, CNRS, Inria (jean.lieber@loria.fr)

Enjeux scientifique

Les ICE et les IME1 sont des éléments génétiques retrouvés en abondance dans les génomes bactériens. Ils jouent un rôle majeur dans la dissémination des résistances aux antibiotiques. S’il est actuellement possible de détecter automatiquement la présence de ces éléments dans les génomes bactériens, en revanche il n’existe, à ce jour, aucune méthode automatique pour les délimiter. C’est à ce front de science que le projet CODAGE souhaite s’attaquer. L’originalité de ce projet est de combiner les méthodes de bornage manuelle des éléments de l’équipe ICE-TeA avec des processus d’intelligence artificielle (IA) de l’équipe K du Loria pour concevoir des méthodes originales de délimitation automatisée des ICE et des IME.

Cette thèse est destinée soit à un-e microbiologiste ouvert-e à l’informatique et notamment au langage de programmation python, ou un-e bioinformaticien-ne ou à un-e informaticien-ne ouvert-e aux applications en génomique. Ce sujet de thèse a été écrit avec un esprit ouvert et sera adapté à la spécialité originale de l’étudiant·e (informatique ou biologie). Néanmoins, dans les deux situations, l’étudiant·e devra développer des compétences dans le champ disciplinaire qui n’est pas le sien à l’origine. L’étudiant-e bénéficiera du soutien des deux laboratoires partenaires et de ses deux co-directeurs : l’un microbiologiste (N. Leblond-Bourget) et l’autre informaticien (J. Lieber).

Contexte scientifique

D’un point de vue génomique. La conjugaison bactérienne est un mécanisme majeur d’échange de gènes entre bactéries via un contact physique entre la cellule donneuse et la cellule receveuse. Elle est médiée par des éléments génétiques mobiles conjugatifs incluant notamment les ICE (Integrative and Conjugative Element) et les IME (Integrative and Mobilisable Element), deux types d’éléments intégrés dans les génomes bactériens. Les analyses récentes à large échelle de génomes bactériens suggèrent que les ICE et les IME, quoiqu’actuellement mal connus et rarement décrits, sont très divers, et présents dans la plupart des génomes bactériens.

Des outils informatiques ont été développés récemment pour faciliter la détection de ces éléments dans les génomes bactériens. Toutefois, il n’existe actuellement aucun outil capable de délimiter précisément et automatiquement les ICE ni les IME. Cela résulte de l’impossibilité d’établir des règles simples qui s’appliquent uniformément à l’ensemble des éléments ou même à une majorité d’entre eux.

Depuis 10 ans, le laboratoire DynAMic a développé une expertise pour la délimitation des ICE et des IME de streptocoques et de quelques autres Firmicutes. Elle se fonde sur une connaissance experte des intégrases codées par ces éléments (enzymes permettant l’intégration des éléments dans les chromosomes), et des séquences qu’elles ciblent. Nous avons délimité de façon manuelle de nombreux ICE et IME dans les génomes de Firmicutes, mais la recherche de leurs limites est complexe à automatiser du fait de la diversité des intégrases identifiées et des sites ciblés. En fait, nous ne suivons pas un schéma unique mais adaptons notre démarche en fonction des différents modes d’intégration des ICE et des IME. Les méthodologies mises au point permettent d’identifier précisément les limites des éléments intégrés, le plus souvent par identification de courtes séquences répétées d’ADN flanquant l’élément après intégration. Ces limites sont très variables selon les modalités d’intégration et dans certains cas très difficiles à détecter. Afin d’automatiser (ou de semi-automatiser) nos raisonnements, l’idée a émergé

d’utiliser des méthodes et techniques du raisonnement à partir de cas (RàPC), étant donné les qualités de ce type de raisonnement dans la modélisation de l’expérience humaine.

D’un point de vue informatique. Le raisonnement a partir de cas (RaPC) est un domaine de l’intelligence artificielle (IA) souvent considere comme faisant partie de l’IA symbolique. C’est un type de raisonnement s’appuyant sur une base de cas, un cas etant la representation d’une experience particuliere de resolution de probleme dans un domaine d’application particulier. Par consequent, une base de cas peut etre consideree comme une façon de representer une partie de l’experience d’un expert (ou d’un groupe d’experts). Construire un systeme de RaPC implique, d’une part, d’acquerir, modeliser et representer des cas pour enrichir la base de cas et, d’autre part, la conception d’un moteur d’inferences. En general, ce moteur se compose de deux parties (executees en sequence), etant donne un probleme a resoudre, appele problème cible :

La remémoration vise a selectionner un cas de la base de cas qui est juge similaire au probleme cible (similaire dans un sens qu’il faut preciser);
L’adaptation a pour but la modification du cas rememore afin de resoudre le probleme cible. En particulier, le raisonnement a partir de cas oriente processus (RaPC-OP) est l’approche du RaPC dans laquelle les cas representent des processus complexes, avec nœuds de decision, taches a executer en sequence ou en parallele, etc.

Objectifs de la thèse

Cette these visera a utiliser les principes du RaPC pour construire un systeme permettant de rechercher automatiquement la limite des ICE et des IME chez les bacteries du phylum des Firmicutes, voire a d’autres phyla. Un travail préliminaire réalisé conjointement par les laboratoires partenaires a permis de faire la preuve de concept et montre que le RàPC s’avère particulièrement utile pour automatiser les différentes démarches de délimitation des éléments. Pour cette thèse, les differentes taches a realiser seront les suivantes :

  • Travail sur l’acquisition, modélisation et représentation des cas-processus. Cela devrait inclure (i) des cas d’ICE et IME de Firmicutes, pouvant ou non être difficiles à résoudre, comme des bornes constituées de séquences répétées plus ou moins longues, ou ne contenant aucune séquence répétée, (ii) des cas applicables à des ICE ou IME d’autres groupes bactériens pouvant suivre des règles plus ou moins semblables à celles des Firmicutes.

  • Tests de l’approche et estimation de la « couverture » de la base de cas (quels sont les problèmes de bornage qu’elle permet de traiter et quels sont les nouveaux cas à ajouter pour étendre cette couverture).

  • Travail sur l’adaptation et la combinaison, c’est-à-dire voir comment on peut aller au-delà de la simple reproduction du raisonnement associé aux cas (toujours pour étendre la couverture).

  • Travail sur l’interaction biologiste-machine, pour un système de RàPC interactif et explicatif, le but étant d’aider le biologiste à trouver les limites d’éléments suivant des règles d’intégration encore inconnues (ce qui peut être difficile même à la main), ce qui faciliterait ensuite la définition de nouveaux cas permettant la délimitation automatique des éléments suivant ces nouvelles règles.

Candidature

Procédure : Si vous etes interesse par cette these, n’hesitez pas a nous contacter par courriel : nathalie.leblond@univ-lorraine.fr jean.lieber@loria.fr

Date limite : 30 juin 2023

Contacts

Nathalie Leblond

 naNOSPAMthalie.leblond@univ-lorraine.fr

Offre publiée le 28 avril 2023, affichage jusqu'au 30 juin 2023