Stage (thèse possible) - Méthodes pour la quantification de l'expression des gènes
Stage · Stage M2 · 6 mois Bac+5 / Master CRIStAL · Lille (France)
Date de prise de poste : 1 janvier 2024
Mots-Clés
ARN isoformes épissage structures de données gènes, expression quantification long reads
Description
Méthodes pour la quantification de l'expression des gènes avec des long reads
# Contexte
Les gènes produisent de l'ARN en quantité variable à un temps donné, dans un individu donné, selon des conditions données (on parle d'expression des gènes). Les gènes, chez les eucaryotes, peuvent aussi plus d'une forme d'ARN (des isoformes), qui n'ont a priori pas forcément les mêmes niveaux d'expression. Ces niveaux d'expression, et leurs différences entre conditions, peuvent formuler des hypothèses biologiques (un gène quasiment éteint dans certaines conditions et qui s'exprime beaucoup dans une autre peut être intéressant). Ils donnent lieu à des études d’expressions impliquant différentes conditions biologiques et des réplicats.
Avec les reads courts Illumina, l'état de l'art est très bien établi. Il s’agit de requêter les k-mers des reads dans des bases de données de séquences d'ARN de référence, d’identifier les isoformes où les k-mers sont retrouvés, puis d'avoir des stratégies d'assignation des k-mers quand il y a des assignations multiples. Les comptages finaux peuvent être recensés au niveau de l’isoforme ou du gène. On parle de pseudo-alignement pour ces stratégies qui ont vocation à être très rapides.
Le séquençage long read concerne aussi les ARN, avec de plus en plus de méthodes permettant de quantifier l’expression sur la base de longs reads. Un avantage est que la longueur des reads permet de recenser avec moins d’ambiguité les isoformes qui leurs correspondent. Cependant ces reads sont plus erronés que les séquences Illumina, et ont impliqué le développement de méthodes dédiées. Contrairement aux reads courts, les longs reads sont alignés sur un génome de référence pour réaliser la quantification, une opération a priori plus coûteuse que le pseudo-comptage, surtout s’il faut la répéter pour plusieurs échantillons partageant probablement de l’information.
# Objet du stage
On propose de tester la stratégie inverse, où les reads des échantillons sont indexés dans une structure développée au laboratoire, qui va permettre de réduire la redondance en compressant. Les séquences d’un transcriptome de référence pourront alors être requêtées à l’index dans une stratégie similaire au pseudo-mapping, afin d’assigner les reads aux isoformes.
On pourra s’intéresser à des stratégies d’assignation qui réalisent un compromis temps-mémoire, comme le chainage au lieu du “simple” pseudo-mapping. Enfin, on ajoutera un algorithme expectation maximization, qui bénéficie déjà d’implémentations connues pour ce problème, afin de répartir les reads assignés.
Le stage se décomposera donc en un temps de bibliographie, un temps de développement et un temps de benchmark qui permettra de valider les différentes solutions mises en place.
# Conditions du stage
Le stage est rémunéré pour une durée de 6 mois avec un démarrage en début d’année 2024. Il est financé par l’ANR JCJC Find-RNA, et peut être amené à déboucher sur une thèse à l’automne 2024.
Il se déroulera sur le campus Cité Scientifique à Lille, dans le laboratoire CRIStAL.
Il est encadré par Camille Marchet (contact : univ-lille.fr @ camille.marchet en réalisant une permutation évidente), chargée de recherche dans l’équipe de bioinformatique BONSAI.
# Profil de la candidate-du candidat
En gardant un oeil ouvert sur les candidatures inhabituelles, le profil type reste celui d’un.e bioinformaticien.ne ayant un goût pour le développement méthodologique et la programmation. Informaticien.nes et biologistes curieux.ses bienvenu.e.s.
Candidature
Procédure :
Date limite : None
Contacts
Camille Marchet
caNOSPAMmille.marchet@univ-lille.fr
Offre publiée le 11 octobre 2023, affichage jusqu'au 9 décembre 2023