Analyse des séquences répétées dans les données omics par l'approche des kmers

 Stage · Stage M2  · 5 mois    Bac+5 / Master   IRMB U1183 · Montpellier (France)  gratification

 Date de prise de poste : 1 mars 2024

Mots-Clés

Kmers RNASeq Elément Transposable R C++

Description

Analyse des séquences répétées dans les données omics par l'approche des kmers

Il est clair que les éléments mobiles ont, et continuent de contribuer à la structure, la variabilité et la stabilité des génomes. Les éléments transposables, et en particulier les rétrotransposons, sont abondants dans le génome humain.
LINE-1 (L1) est le seul élément actif autonome connu et plusieurs copies sont encore capables de mobilité à travers un intermédiaire ARN. Dans les cancers, la perturbation des mécanismes cellulaires qui répriment normalement l'activité de L1 peut faciliter son effet mutagène. En effet, des travaux récents ont montré l'activité de L1 dans plusieurs cancers (Kong et al. 2019; Rodriguez-Martin et al. 2020).

Projet :

  • Outils informatiques de gestion de très grands jeux de données (Milliard de k-mers) qui permettent la combinaison des localisations génomiques et des métadonnées.
    Les objectifs étant de réduire les rétrotransposons à une combinaison de k-mers uniques tout en conservant les informations importantes liées à chaque élément.
  • Application dans l’analyse de transcriptomes
    L’objectif est d’identifier et de caractériser l’activité transcriptionnelle de chaque rétrotransposons à l’échelle individuelle (LINE – SINE – hERV) dans les cancers à l’aide de données de séquençage à haut débit (milliers de données RNAseq).
  • Développement d’outils informatiques pour établir des « clusters d’expression »
  • Application à d’autres données « omics » notamment pour l’analyse de ChipSeq (protéines de liaison à l’ADN)

L’objectif est de mesurer un enrichissement ou appauvrissement de chaque rétrotransposons à l’échelle individuelle.

Logiciels utilisés et développés au laboratoire (https://bio2m.fr) :

  • Kmerator, génèse des kmers
  • Reindeer, outils d’indexation et comptage des kmers

Méthode :

  • Développement R, python et C++

Contacts: anthony.boureux@inserm.fr et nicolas.gilbert@inserm.fr

Projet développé en vue de réaliser une thèse par la suite.

Candidature

Procédure : Réponse par mail.

Date limite : 22 janvier 2024

Contacts

Anthony Boureux et Nicolas Gilbert

 anNOSPAMthony.boureux@inserm.fr

Offre publiée le 25 octobre 2023, affichage jusqu'au 22 janvier 2024