Conception et optimisation d’un workflow d’analyse de données de métagénomique virale
Stage · Stage M1 · 2 mois Bac+3 / Licence Plateforme Bioinformatique de l'Ifremer · Plouzané (France) Prime d'éloignement (2*170€) + Tarif repas salariés
Date de prise de poste : 7 avril 2025
Mots-Clés
Workflow Nextflow Virus Metagenomique
Description
Contexte
La métagénomique est devenue un outil possible pour l’étude de la diversité des virus présents dans des écosystèmes variés, des eaux usées aux échantillons environnementaux. À l’échelle globale, la surveillance virale via la métagénomique permet de détecter la dispersion de nouvelles souches et de suivre l’évolution des virus émergents. Cependant, la complexité des données et des pipelines bioinformatiques utilisés pour leur analyse rend l’automatisation et la standardisation de ces procédures essentielles pour garantir des résultats reproductibles et comparables entre les différentes études.
Dans ce contexte, Nextflow, un outil puissant pour la gestion de flux de travail (workflow) bioinformatiques, peut offrir une solution flexible pour l’automatisation de l’analyse des données de métagénomique virale. Ce stage propose de développer un pipeline sous Nextflow pour l’analyse global de données de viromes environnementaux tout en ayant également une attention particulière portée aux virus pathogènes pour l’Homme dont les norovirus présents dans ces viromes.
Objectifs
L’objectif principal du stage est de concevoir, de développer et de documenter un workflow bioinformatique automatisé sous Nextflow, destiné à l’analyse des données de métagénomique virale. Ce pipeline doit permettre :
- La standardisation des analyses à grande échelle de données de métagénomique virale, en intégrant des étapes d’importation, de nettoyage, de filtration et d’assemblage des séquences
- La détection et l’identification de la diversité virale présente dans les données
- La détection et l’identification spécifique des norovirus à partir des données
- L’intégration de méthodes d’analyse comparatives et évolutives pour le suivi des souches virales dans des contextes environnementaux variés
Description du projet
Le projet s’articulera autour d’une première version d’un workflow existant (MAEVA) et se décomposera en plusieurs étapes principales :
- Prise en main de MAEVA et analyse de l’état de l’art des pipelines bioinformatiques pour la métagénomique virale et spécifiquement pour l’analyse des norovirus
- Conception et Optimisation du workflow MAEVA : Poursuite du travail déjà engagé pour la création d’un pipeline modulaire et évolutif sous Nextflow, permettant l’analyse des données virales de manière scalable et reproductible.
- Prétraitement des données : contrôle qualité, filtration de qualité, …
- Assemblage : assemblage des séquences pour reconstruire les génomes viraux complets
- Détection et assignation : assignation taxonomique pour l’identification des virus d’intérêt dont les norovirus
- Analyse de la diversité virale
- Tests et validation : Application du workflow à un jeu de données réel pour valider son bon fonctionnement et évaluer les performances.
- Documentation : Rédaction d’une documentation détaillée pour faciliter la reproductibilité et le transfert de connaissances.
Compétences requises
- Compétences en bioinformatique et en programmation (bash, Python, R)
- Connaissances de base en métagénomique et en gestionnaire de workflow (Nextflow serait un plus)
- Intérêt pour la virologie et la microbiologie.
Encadrement et environnement de travail
Le ou la stagiaire sera co-encadré.e par Julien Schaeffer (IFREMER, Laboratoire Santé Environnement et Microbiologie - LSEM) et Cyril Noël (IFREMER, Service de Bioinformatique - SeBiMER). Ce projet se déroulera au sein du SeBiMER sur le Centre IFREMER Bretagne pour une durée de 2 mois.
Candidature
Procédure : Envoyer par email votre CV et LM
Date limite : 31 janvier 2025
Contacts
Cyril Noël
cyNOSPAMril.noel@ifremer.fr
Offre publiée le 19 novembre 2024, affichage jusqu'au 31 janvier 2025