肝上皮细胞单细胞亚群
肝癌单细胞数据集也有十多个了,拿到表达量矩阵后的第一层次降维聚类分群通常是: immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。比如 J. Hepatol. 2020, 的文章《 Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic cholangiocarcinoma 》,就是如此:
第一层次降维聚类分群
绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
反而是上皮细胞,大家很少涉及到,但是肝癌既然是来源于肝这样的组织, 它的上皮细胞就不可能是一个纯粹的上皮,理论上是可以细分的。上面的文章也进行了简单的细分:
上皮细胞细分
可以看到,肿瘤的上皮细胞首先需要区分恶性与否,然后各自降维聚类分群和生物学命名,目前区分恶性与否比较权威的工具是infercnv。我们早期大量关于使用infercnv来推断肿瘤单细胞转录组数据里面的拷贝数的教程:CNS图表复现09—上皮细胞可以区分为恶性与否
CNS图表复现13—使用inferCNV来区分肿瘤细胞的恶性与否
CNS图表复现14—检查文献的inferCNV流程
CNS图表复现15—inferCNV流程输入数据差异大揭秘
CNS图表复现16—inferCNV结果解读及利用
CNS图表复现17—inferCNV结果解读及利用之进阶
一般来说,恶性的肿瘤细胞分群只能是靠生物学特征,顺序编号即可,它不是正常细胞,异质性很大,也没有办法给出来一个通用的生物学名字。上面的文章就是简单的给出来了0,1,2,3这样的顺序编号。
那么,正常的肝组织上皮细胞主要是什么呢?就是cholangiocytes和hepatocytes这两个单细胞亚群,文章里面也给出来了很清晰的基因列表:cholangiocytes (546 cells, 1.7%, marked with FYXD2, TM4SF4, and ANXA4); hepatocytes (328 cells, 1.0%, marked with APOC3, FABP1, and APOA1);
可以看到,它的上皮细胞单细胞亚群是最简单的,比起前面的结直肠,胃,肾,肺来说,当然了,也有可能是我们目前对肝上皮细胞的认知程度不够啦。
推荐另外一个单细胞文献:《A single cell atlas of the human liver tumor microenvironment》,可以看到它使用的基因又基本上完全不一样了:
可以看到,肝癌的肿瘤微环境确实比较复杂,仅仅是内皮细胞就需要细分:Central vein:中央静脉, Portal vein:门静脉, Pericentral:中心周围。
而且我们常见的巨噬细胞在肝脏里面被改名成为了Kuffer cell:枯否细胞
而我们常见的成纤维细胞,在肝脏里面被改名成为了 Hepatic stellate cell:肝星状细胞
大家也可以去测试一下这些基因在你的肝脏单细胞数据集里面是否好用。代码给大家;library(ggplot2) genes_to_check = c("FXYD3","CLDN4","CEACAM6","CEACAM5","ELF", "CLDN10","SLC22A10","FETUB","LBP","HPR","LECT2", "SERPINA10","CD5L","VCAM1","CETP","LILRB5","MARCO", "SDC3","TREM2","GPNMB","CAPG","FCER1A","CD1C","CLEC10A", "JAML","S100A9","FCN1","S100A8","FGR","XCR1","CLEC9A", "IDO1","WDFY4","FLT3","CPNE3","GZMA","CD3E", "KLRB1","NKG7","CD7","CCL5","IGLL5","FCRL5", "TNFRSF17","DERL3","JCHAIN","MZB1","CPE", "SLCO2A1","CLEC14A","TGM2","PODXL","VWA1", "SOX18","PLVAP","CD34","ICAM2","RELN","CLEC4M", "CLEC1B","CLEC4G","FCN2","OIT3","RERGL", "MYH11","ITGA8","PLN","ADIRF","OLFML2A","NDUFA4L2", "RGS5","TPPP3","PLXDC1","FRZB","MMP11","CTHRC1","INHBA", "HOPX","POSTN","LTBP2","CXCL12","PTGDS","MASP1","FBLN1", "C7","HGF","TPX2","MKi67","UBE2C","ASPM","TOP2A","RRM2" )
当然了,这样的生物学认知还需要自己深入这个领域。
如果大家可视化的时候,也可以加上ten liver can- cer-related stemness genes, 就是:EPCAM, KRT19, PROM1, ALDH1A1, CD24, ANPEP, CD44, ICAM1, CD47, and SOX9
其实这样的基础认知,也可以看基础10讲: 01. 单细胞转录组数据处理之上游分析流程
02. 说清楚你的单细胞转录组课题多少个样品,测序数据量如何
03. 过滤不合格细胞和基因(数据质控很重要)
04. 过滤线粒体核糖体基因
05. 去除细胞效应和基因效应 06. 单细胞转录组数据处理之降维聚类分群
07. 单细胞转录组数据处理之细胞亚群注释
08. 单细胞转录组数据处理之细胞亚群继续分群
09. 单细胞转录组数据处理之细胞亚群比例比较
最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释