Conception et optimisation d’un workflow d’analyse de données de métagénomique virale

 Stage · Stage M1  · 2 mois    Bac+3 / Licence   Plateforme Bioinformatique de l'Ifremer · Plouzané (France)  Prime d'éloignement (2*170€) + Tarif repas salariés

 Date de prise de poste : 7 avril 2025

Mots-Clés

Workflow Nextflow Virus Metagenomique

Description

Contexte

La métagénomique est devenue un outil possible pour l’étude de la diversité des virus présents dans des écosystèmes variés, des eaux usées aux échantillons environnementaux. À l’échelle globale, la surveillance virale via la métagénomique permet de détecter la dispersion de nouvelles souches et de suivre l’évolution des virus émergents. Cependant, la complexité des données et des pipelines bioinformatiques utilisés pour leur analyse rend l’automatisation et la standardisation de ces procédures essentielles pour garantir des résultats reproductibles et comparables entre les différentes études.

Dans ce contexte, Nextflow, un outil puissant pour la gestion de flux de travail (workflow) bioinformatiques, peut offrir une solution flexible pour l’automatisation de l’analyse des données de métagénomique virale. Ce stage propose de développer un pipeline sous Nextflow pour l’analyse global de données de viromes environnementaux tout en ayant également une attention particulière portée aux virus pathogènes pour l’Homme dont les norovirus présents dans ces viromes.

 

Objectifs

L’objectif principal du stage est de concevoir, de développer et de documenter un workflow bioinformatique automatisé sous Nextflow, destiné à l’analyse des données de métagénomique virale. Ce pipeline doit permettre :

  1. La standardisation des analyses à grande échelle de données de métagénomique virale, en intégrant des étapes d’importation, de nettoyage, de filtration et d’assemblage des séquences
  2. La détection et l’identification de la diversité virale présente dans les données
  3. La détection et l’identification spécifique des norovirus à partir des données
  4. L’intégration de méthodes d’analyse comparatives et évolutives pour le suivi des souches virales dans des contextes environnementaux variés

Description du projet

Le projet s’articulera autour d’une première version d’un workflow existant (MAEVA) et se décomposera en plusieurs étapes principales :

  1. Prise en main de MAEVA et analyse de l’état de l’art des pipelines bioinformatiques pour la métagénomique virale et spécifiquement pour l’analyse des norovirus
  2. Conception et Optimisation du workflow MAEVA : Poursuite du travail déjà engagé pour la création d’un pipeline modulaire et évolutif sous Nextflow, permettant l’analyse des données virales de manière scalable et reproductible.
  • Prétraitement des données : contrôle qualité, filtration de qualité, …
  • Assemblage : assemblage des séquences pour reconstruire les génomes viraux complets
  • Détection et assignation : assignation taxonomique pour l’identification des virus d’intérêt dont les norovirus
  • Analyse de la diversité virale
  1. Tests et validation : Application du workflow à un jeu de données réel pour valider son bon fonctionnement et évaluer les performances.
  2. Documentation : Rédaction d’une documentation détaillée pour faciliter la reproductibilité et le transfert de connaissances.

Compétences requises

  • Compétences en bioinformatique et en programmation (bash, Python, R)
  • Connaissances de base en métagénomique et en gestionnaire de workflow (Nextflow serait un plus)
  • Intérêt pour la virologie et la microbiologie.

Encadrement et environnement de travail

Le ou la stagiaire sera co-encadré.e par Julien Schaeffer (IFREMER, Laboratoire Santé Environnement et Microbiologie - LSEM) et Cyril Noël (IFREMER, Service de Bioinformatique - SeBiMER). Ce projet se déroulera au sein du SeBiMER sur le Centre IFREMER Bretagne pour une durée de 2 mois.

Candidature

Procédure : Envoyer par email votre CV et LM

Date limite : 31 janvier 2025

Contacts

Cyril Noël

 cyNOSPAMril.noel@ifremer.fr

Offre publiée le 19 novembre 2024, affichage jusqu'au 31 janvier 2025