Analyse de données de transcriptomique sur GPU

 Stage · Stage M2   Bac+5 / Master   Plateforme GENOM'IC - Institut Cochin · PARIS (France)  selon convention stage

 Date de prise de poste : 1 mai 2024

Mots-Clés

RNA-seq scRNA-seq spatial transcriptomic GPU NVidia Python

Description

Contexte

Les avancées en bioinformatique dans le domaine du séquençage de la cellule unique et de la transcriptomique spatiale représentent une révolution technologique majeure pour l'étude de l'hétérogénéité cellulaire au sein des tissus biologiques. L'accroissement de la complexité, en augmentant les dimensions des jeux de données, et de la diversité de ces données a entraîné une évolution significative des méthodes d'analyse et de nouvelles exigences en termes de matériel informatique.

L'accessibilité des données publiques offre également de nouvelles perspectives pour la recherche, permettant la création de jeux de données dépassant les millions de cellules. Cependant, cette évolution nécessite une adaptation constante des équipes de recherche et des infrastructures dédiées à l'analyse.

Pour exploiter pleinement ces données, des ajustements matériels sont indispensables afin d'atteindre une puissance de calcul adéquate. En effet, les ressources nécessaires augmentent proportionnellement au nombre de cellules, et les temps de calcul sur les machines traditionnelles (CPU) peuvent rapidement s'étendre sur plusieurs jours. Actuellement, les solutions de calcul disponibles au sein de l'institut reposent uniquement sur les CPU (et sont accessibles via les serveurs de l'IFB). Cependant, des alternatives telles que les solutions de calcul GPU proposées par des fabricants comme NVidia ont émergé ces dernières années, offrant des performances nettement supérieures à celles des CPU.

Etablir un pipeline dynamique, autorisant la modification en temps réel des paramètres de calculs, la gestion rapide des échantillons et l’annotation des clusters sur plusieurs millions de cellules est un défi, relevé aujourd’hui par ces solutions de calculs GPU. A titre de comparaison, un pipeline standard utilisant Seurat et des CPU met environ 30h pour gérer une seule itération sur un jeu de données de 1,3 millions de cellules. Chaque modification d’un paramètre, ajout d’un échantillon, suppression de cellules, nécessitera donc 30h, là où des outils effectuant les mêmes algorithmes sur les même données mais sur GPU prennent entre 27 et 320 secondes. Même sur des plus petits jeux de données (de quelques dizaines de milliers de cellules) les temps de calculs passent d’1h30 à 90 secondes.

Objectifs

L’objectif de ce stage est avant tout de tester ces pipelines sur une machine GPU mise en place par le HUB Bioinformatique de l’Institut Cochin. Fortes d’années d’experiences en single-cell et de dizaines de projets analysés annuellement, la plateforme GENOM’IC possède à la fois les compétences d’analyses, sur solutions de calcul CPU, et les jeux de données test pour établir la comparaison avec les nouveaux outils.

La personne recrutée aura en charge l’installation des outils pour exploiter les GPU, la vérification de leur bon fonctionnement, puis enfin la comparaison sur des jeux de données préalablement sélectionnés. L’ensemble de ces résultats constituera à la foisune base de réflexion dans les routines de la plateforme GENOM’IC, actuellement sur CPU, et une acquisition de compétences uniques destinées à être diffusées sur le réseau de bioinformatique de l’Université de Paris-Cité, iPOP-UP.

Accueil

La personne recrutée sera accueillie sur le HUB Bioinformatique de l’Institut Cochin, pièce informatique regroupant des bioinformaticiens de l’institut.

Encadrants

Lilia Younsi, IE, experte en analyse de données, spécialisée en single-cell

Yoann Martin, IE expert en analyse de données, spécialisée en transcriptomique spatiale

Benjamin Saintpierre, IE expert en analyse de données et en biostatistiques

Candidature

Procédure : Envoyer CV + LM à benjamin.saintpierre@inserm.fr

Date limite : 12 avril 2024

Contacts

Benjamin Saintpierre

 beNOSPAMnjamin.saintpierre@inserm.fr

Offre publiée le 21 mars 2024, affichage jusqu'au 12 avril 2024