Interview Nicolas Sauvion et Robert Bossy
Des mots aux maladies : la puissance du Taitement Automatique de la Langue (TAL) appliquée à l'agroécologie
Cartes d’identité :
Nicolas Sauvion | | Robert Bossy |
- statut : ingénieur de recherche Hors-Classe à PHIM (Plant Health Institute of Montpellier).
- formation : Entomologiste, spécialiste des interactions plantes-insectes (HDR: https://hal.science/tel-03701225) avec une appétence pour les mathématiques et la statistique (DEA de biostatistiques, École Lyonnaise de Biométrie).
- parcours : débuts à l'INRA en 1996 en Guadeloupe sur la recherche de sources de résistance chez le melon à un insecte vecteur. Suite à sa mobilité à Montpellier en 2004, il élargit ses recherches aux interactions plantes-insectes-agents pathogènes.
| | - statut : ingénieure de recherche en traitement automatique de la langue (TAL) pour la biologie et extraction d'information via l'Intelligence Artificielle (IA) au sein de l'unité INRAE MaIAGE.
- formation : Licence et Maîtrise de biologie des organismes (Paris 6), DEA de Modélisation biologique (Lyon 1), Doctorat en Bioinformatique (Paris 6).
- parcours : débuts en bioinformatique appliquée à l'analyse de séquences dès les années 2000. Depuis 2006, il intègre l'équipe Bibliome où il se spécialise en TAL appliqué aux domaines de l’institut, en particulier à la microbiologie et à la santé des plantes.
|
Entretien
Quels sont vos domaines de recherche et d'expertise ?
Robert Bossy se concentre sur l’application du Traitement Automatique de la Langue (TAL) à l’extraction d’informations textuelles et à l’interprétation de ces informations en mettant en place des modèles linguistiques et des ontologies adaptées aux domaines scientifiques. Nicolas Sauvion, de son côté, apporte son expertise sur les interactions biologiques au sens large, et sur l’épidémiosurveillance en particulier. Il insiste sur l’importance de la valorisation des données historiques, y compris des manuscrits et collections d’insectes numérisées, qui constituent une ressource précieuse pour avoir une meilleure appréhension de la biodiversité au sein des écosystèmes et pour comprendre l’évolution des populations d’insectes. Il souligne également que la veille scientifique ne devrait pas se limiter aux articles récents (tendance actuelle à privilégier les découvertes très récentes) mais doit intégrer des sources anciennes pour reconstituer l'évolution de certaines problématiques biologiques et bien contextualiser l’évolutivité de la connaissance.
Quelle est la question scientifique vous ayant mené à collaborer ensemble ?
Leur collaboration a émergé il y a quatre ans dans le cadre du projet BEYOND (https://beyond.paca.hub.inrae.fr/) financé par le Programme Prioritaire de Recherche (PPR) Cultiver et Protéger Autrement (CPA) porté par INRAE, qui vise à développer des solutions alternatives à l’emploi des pesticides (https://www.cultiver-proteger-autrement.fr/). La nécessité de renforcer la veille sanitaire et bibliographique sur des sujets d’enjeux essentiels pour l’agriculture ont été des catalyseurs de la collaboration entre Nicolas Sauvion et les spécialistes du TAL de MaIAGE. Impliqué notamment dans plusieurs analyses de risque pour l’EFSA et l’ANSES, Nicolas Sauvion a pu constater ces dernières années une “submersion” d’informations et la raréfaction des experts capables de les analyser. Cette situation a mis en évidence le besoin de solutions automatisées et d’outils de traitement de la langue pour traiter ces informations et notamment dissocier le bon grain de l’ivraie. Ce besoin est d’autant plus crucial face aux crises sanitaires telle que l’épidémie de Xylella fastidiosa affectant les oliviers en Europe, qui a mobilisé et continue de mobiliser chaque année des dizaines d’experts, ne serait-ce que pour maintenir à jour les connaissances sur la maladie.
Quel type de travaux effectuez-vous dans le cadre de votre collaboration ?
L’approche collaborative repose sur l’utilisation d’objets frontières qui stimulent les interactions entre personnes de disciplines très éloignées et l’acculturation, pour poser les bases nécessaires à la formalisation de questions de recherches de fort intérêt pour les différentes personnes impliquées dans la collaboration. Une collaboration ne devrait pas se réduire à un simple échange de techniques ou d’idées. Par exemple, l’annotation de documents permet à la fois d’affiner les modèles d’extraction d’information, de co-construire un dataset pour l’apprentissage automatique, et de faciliter la compréhension du domaine. Les spécialistes du domaine scientifique annotent des documents d’intérêt afin d’identifier les termes clés, tandis que les experts en TAL utilisent ces annotations pour entraîner et enrichir leurs outils de détection et d’extraction d’informations. Cette approche collaborative a, par exemple, conduit à développer une nouvelle ontologie pour analyser les relations complexes au sein du triptyque (ou pathosystème) : insecte vecteur-hôte-agent pathogène. Cette ontologie a été développée sur le modèle des maladies d’intérêt pour l’agriculture, mais elle a été réfléchie dès le départ pour être transposable aux maladies humaines ou animales. Nicolas Sauvion insiste sur le fait que cette structuration de l'information permet non seulement d’améliorer la veille bibliographique, mais également d'accélérer la détection d'éventuelles menaces émergentes.
Est-ce une collaboration ponctuelle ou de long terme ?
Cette collaboration, initiée il y a quatre ans, a vocation à se prolonger sur le long terme. Une thèse a démarré en octobre 2024 grâce à un financement DG-INRAE, sur un sujet porté conjointement par les Départements SPE et MathNum. Plusieurs tentatives de financements de cette thèse (ANSES, INRAE, Région Occitanie, INRIA, projet européen...) avaient échoué l’année précédente. La pêche aux financements est un enjeu majeur pour assurer la pérennité du projet. D’autres pistes sont actuellement en réflexion (projet EXPLORAE, ANR, Européens). La collaboration actuelle s’appuie sur des co-encadrements de stagiaires, doctorants, ou des CDD, car c’est une manière très stimulante de créer et maintenir des passerelles entre disciplines. Mais se pose ici un problème récurrent d’être attractif sur ce type de problématique très orientée biologie/agriculture dans un domaine (le TAL) très compétitif où les candidats sont plus motivés par les sujets liés au médical par exemple. En revanche les thèmes environnementaux portés par INRAE et matérialisés dans l’étude des pathosystèmes résonnent de plus en plus avec les valeurs des jeunes diplômés.
Qui est à l'initiative de cette collaboration ?
Cette collaboration est née d’une rencontre fortuite entre Nicolas Sauvion et l’équipe de MaIAGE, notamment Claire Nédellec dans le cadre du projet BEYOND évoqué précédemment. Ce rapprochement a été motivé par les enjeux liés à l’épidémiosurveillance et au besoin d’une gestion efficace des connaissances dans le domaine de la santé végétale. Fortuite ? En fait, ce sont surtout les chefs du projet BEYOND (Cindy Morris et Samuel Soubeyrand, INRAE-Avignon) qui ont réussi le pari de l’interdisciplinarité.
Votre environnement de travail est-il majoritairement formé de bioinformaticien·ne·s , de biologistes ou est-ce en proportion équivalente ?
L’environnement de travail de Robert Bossy est principalement composé de bioinformaticien·ne·s et de spécialistes en traitement automatique de la langue, tandis que Nicolas Sauvion évolue dans un cadre à dominante biologique. Cette différence de milieu souligne l’importance de la complémentarité entre expertise biologique et outils informatiques pour favoriser des échanges constructifs. Cette diversité disciplinaire impose également un travail constant de compréhension mutuelle et de traduction des concepts entre spécialistes de différents domaines.
Quelles expertises et/ou compétences recherchez-vous auprès d'une collaboration avec un·e bioinformaticien·ne ?
Nicolas Sauvion met en avant l’effort constant nécessaire pour comprendre le jargon et les concepts de chaque discipline. Une compréhension approfondie de termes usuels, comme la notion de "vecteur" en santé végétale, est essentielle pour garantir la pertinence des résultats extraits. Or, même pour le biologiste habitué à utiliser certains termes, les définir “correctement” est parfois difficile et nécessite de revisiter ses acquis. Il évoque également la nécessité d’une adaptation des outils bioinformatiques aux besoins des biologistes, en facilitant l’accès aux données et en développant des interfaces plus intuitives.
Quelle est la clé pour des échanges facilités ?
Les intervenants s’accordent sur l’importance d’un effort continu de communication et de clarification des concepts. La structuration des bases de connaissances et la définition rigoureuse des termes sont des enjeux majeurs. Ils soulignent également la nécessité de favoriser les rencontres en présentiel, qui permettent une progression plus efficace des projets que les échanges en visioconférence. Robert Bossy explique que la nature même du TAL impose des échanges fréquents pour ajuster les modèles aux besoins des biologistes.
Leurs messages
Nicolas Sauvion encourage à "explorer des pistes en dehors de là où vous êtes", plaidant pour une approche ouverte et proactive des collaborations scientifiques. Il met en avant l’importance de provoquer les bonnes rencontres et de briser les barrières disciplinaires. Robert Bossy insiste sur la nécessité de "structurer l'information non structurée pour la rendre accessible", soulignant le rôle fondamental du TAL dans l’automatisation et l’optimisation de la veille scientifique et sanitaire.
Conclusion
Cette complémentarité entre expertise biologique et concepts informatiques permet de développer des méthodologies innovantes, d’aborder des questions de recherches originales et stimulantes pour les différentes disciplines et au final d’améliorer l’accessibilité aux connaissances scientifiques pour mieux anticiper et gérer les crises sanitaires et environnementales.