UNIVERSITÉ PARIS DESCARTES ED 474 Frontières du vivant Institut Curie, PSL Rese

UNIVERSITÉ PARIS DESCARTES ED 474 Frontières du vivant Institut Curie, PSL Research University, Mines Paris Tech, Inserm U900 Centre de Recherches Interdisciplinaires Paris, France Unsupervised deconvolution of bulk omics profiles: methodology and application to characterize the immune landscape in tumors par Urszula Czerwińska Thèse de doctorat Interdisciplinaire Thèse dirigée par Andrei Zinovyev et Vassili Soumelis Présentée et soutenue publiquement le 2 octobre 2018 Devant un jury composé de : Andrei ZINOVYEV directeur de thèse - Paris 5 Descartes Vassili SOUMELIS directeur de thèse - Paris 7 Diderot Christophe AMBROISE rapporteur - Université d’Evry Val d’Essone Aurélien DE REYNIÈS rapporteur - Université Paris 6 Pierre et Marie Curie Jean-Yves BLAY examinateur - Université Lyon 1 Marielle CHIRON examinatrice - Sanofi Marie-Caroline DIEU-NOSJEAN examinatrice - Université Paris 6 Pierre et Marie Curie Daniel GAUTHERET examinateur - Université Paris Sud Title: Déconvolution non supervisée des profils omiques de masse: méthodologie et application à la caractérisation du paysage immunitaire des tumeurs Résumé (français) : Les tumeurs sont entourées d’un microenvironnement complexe comprenant des cellules tumorales, des fibroblastes et une diversité de cellules immunitaires. Avec le développement actuel des immunothérapies, la compréhension de la composition du microenvironnement tumoral est d’une importance critique pour effectuer un pronostic sur la progression tumorale et sa réponse au traitement. Cependant, nous manquons d’approches quantitatives fiables et validées pour caractériser le microenvironnement tumoral, facilitant ainsi le choix de la meilleure thérapie. Une partie de ce déficonsiste à quantifier la composition cellulaire d’un échantillon tumoral (appelé problème de déconvolution dans ce contexte), en utilisant son profil omique de masse (le profil quantitatif global de certains types de molécules, tels que l’ARNm ou les marqueurs épigénétiques). La plupart des méthodes existantes utilisent des signatures prédéfinies de types cellulaires et ensuite extrapolent cette information à des nouveaux contextes. Cela peut introduire un biais dans la quantification de microen- vironnement tumoral dans les situations où le contexte étudié est significativement dif- férent de la référence. Sous certaines conditions, il est possible de séparer des mélanges de signaux complexes, en utilisant des méthodes de séparation de sources et de réduction des dimensions, sans définitions de sources préexistantes. Si une telle approche (déconvolution non super- visée) peut être appliquée à des profils omiques de masse de tumeurs, cela permettrait d’éviter les biais contextuels mentionnés précédemment et fournirait un aperçu des sig- natures cellulaires spécifiques au contexte. Dans ce travail, j’ai développé une nouvelle méthode appelée DeconICA (Déconvolution de données omiques de masse par l’analyse en composantes immunitaires), basée sur la méthodologie de séparation aveugle de source. DeconICA a pour but l’interprétation et la quantification des signaux biologiques, façonnant les profils omiques d’échantillons tumoraux ou de tissus normaux, en mettant l’accent sur les signaux liés au système im- munitaire et la découverte de nouvelles signatures. Afin de rendre mon travail plus accessible, j’ai implémenté la méthode DeconICA en tant que librairie R. En appliquant ce logiciel aux jeux de données de référence, j’ai démontré qu’il est possible de quantifier les cellules immunitaires avec une précision comparable aux méthodes de pointe publiées, sans définir a priori des gènes spécifiques au type cellulaire. DeconICA peut fonctionner avec des techniques de factorisation matricielle telles que l’analyse indépendante des composants (ICA) ou la factorisation matricielle iii non négative (NMF). Enfin, j’ai appliqué DeconICA à un grand volume de données : plus de 100 jeux de don- nées, contenant au total plus de 28 000 échantillons de 40 types de tumeurs, générés par différentes technologies et traités indépendamment. Cette analyse a démontré que les signaux immunitaires basés sur l’ICA sont reproductibles entre les différents jeux de données. D’autre part, nous avons montré que les trois principaux types de cellules im- munitaires, à savoir les lymphocytes T, les lymphocytes B et les cellules myéloïdes, peu- vent y être identifiés et quantifiés. Enfin, les métagènes dérivés de l’ICA, c’est-à-dire les valeurs de projection associées à une source, ont été utilisés comme des signatures spécifiques permettant d’étudier les caractéristiques des cellules immunitaires dans différents types de tumeurs. L’analyse a révélé une grande diversité de phénotypes cellulaires identifiés ainsi que la plasticité des cellules immunitaires, qu’elle soit dépendante ou indépendante du type de tumeur. Ces résultats pourraient être utilisés pour identifier des cibles médicamenteuses ou des biomarqueurs pour l’immunothérapie du cancer. Title: Unsupervised deconvolution of bulk omics profiles: methodology and application to characterize the immune landscape in tumors Abstract: Tumors are engulfed in a complex microenvironment (TME) including tumor cells, fibroblasts, and a diversity of immune cells. Currently, a new generation of can- cer therapies based on modulation of the immune system response is in active clinical development with first promising results. Therefore, understanding the composition of TME in each tumor case is critically important to make a prognosis on the tumor progres- sion and its response to treatment. However, we lack reliable and validated quantitative approaches to characterize the TME in order to facilitate the choice of the best existing therapy. One part of this challenge is to be able to quantify the cellular composition of a tumor sample (called deconvolution problem in this context), using its bulk omics profile (global quantitative profiling of certain types of molecules, such as mRNA or epigenetic mark- ers). In recent years, there was a remarkable explosion in the number of methods ap- proaching this problem in several different ways. Most of them use pre-defined molecu- lar signatures of specific cell types and extrapolate this information to previously unseen contexts. This can bias the TME quantification in those situations where the context un- der study is significantly different from the reference. In theory, under certain assumptions, it is possible to separate complex signal mixtures, iv using classical and advanced methods of source separation and dimension reduction, without pre-existing source definitions. If such an approach (unsupervised deconvolu- tion) is feasible to apply for bulk omic profiles of tumor samples, then this would make it possible to avoid the above mentioned contextual biases and provide insights into the context-specific signatures of cell types. In this work, I developed a new method called DeconICA (Deconvolution of bulk omics datasets through Immune Component Analysis), based on the blind source separation methodology. DeconICA has an aim to decipher and quantify the biological signals shap- ing omics profiles of tumor samples or normal tissues. A particular focus of my study was on the immune system-related signals and discovering new signatures of immune cell types. In order to make my work more accessible, I implemented the DeconICA method as an R package named “DeconICA”. By applying this software to the standard benchmark datasets, I demonstrated that DeconICA is able to quantify immune cells with accuracy comparable to published state-of-the-art methods but without a priori defining a cell type-specific signature genes. The implementation can work with existing deconvolu- tion methods based on matrix factorization techniques such as Independent Compo- nent Analysis (ICA) or Non-Negative Matrix Factorization (NMF). Finally, I applied DeconICA to a big corpus of data containing more than 100 transcrip- tomic datasets composed of, in total, over 28000 samples of 40 tumor types generated by different technologies and processed independently. This analysis demonstrated that ICA-based immune signals are reproducible between datasets and three major immune cell types: T-cells, B-cells and Myeloid cells can be reliably identified and quantified. Additionally, I used the ICA-derived metagenes as context-specific signatures in order to study the characteristics of immune cells in different tumor types. The analysis revealed a large diversity and plasticity of immune cells dependent and independent on tumor type. Some conclusions of the study can be helpful in identification of new drug targets or biomarkers for immunotherapy of cancer. Mots-clés (français) : microenvironnement tumoral, biologie des systèmes de cancer, analyse de données omiques, analyse de données monocellulaires, bioinformatique, hétérogénéité, séparation aveugle de source, apprentissage non supervisé, cancer, oncologie, immunologie Keywords: tumor microenvironment, cancer systems biology, omic data analysis, single cell data analysis, bioinformatics, heterogeneity, blind sources separation, unsupervised learning, cancer, oncology, immunology v Dédicace À Richard Avertissement Cette thèse de doctorat est le fruit d’un travail approuvé par le jury de soutenance et réalisé dans le but d’obtenir le diplôme d’Etat de docteur de philosophie. Ce document est mis à disposition de l’ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle de l’auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document. D’autre part, toute contrefaçon, pla- giat, reproduction illicite encourt toute poursuite pénale. Code de la Propriété Intellectuelle. Articles L 122.4 Code de la Propriété Intellectuelle. Articles L 335.2-L 335.10 Remerciments I would like to thank my supervisors Andrei Zinovyev and Vassili Soumelis for guiding this project and enabling me to interact with their teams and sharing the resources. I would also like to thank the U900 lab and his head Emmanuel Barillot to generously equip me with the professional environment, the place and the tools. I address my gratitude to the TAC committee members Franck Pagès and Denis Thieffry for helping me organizing the jury and giving constructive comments along with my thesis, for being uploads/Litterature/ ucz-ph-dthesis 1 .pdf

  • 24
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager