文献解读|Nature(64.8):11 种肿瘤类型的癌症转变过程中的表观遗传调控
✦ +
+
论文ID
原名:Epigenetic regulation during cancer transitions across 11 tumour types
译名:11 种肿瘤类型的癌症转变过程中的表观遗传调控
期刊:Nature
影响因子:64.8
发表时间:2023.11.01
DOI号:10.1038/s41586-023-06682-5
背 景
染色质可及性对于调节基因表达和细胞特性至关重要,可及性的改变与驱动癌症的发生、进展和转移有关。尽管已经研究了遗传对致癌转变的作用,但表观遗传驱动因素仍然知之甚少。
实验设计
结 果
01
跨癌症的染色质可及性
研究者团队从 11 种癌症类型的 201 名患者的 158 个原发性肿瘤样本和 52 个转移性肿瘤样本以及 15 个正常邻近组织 (NAT) 中获取了 225 个样本(图 1a-b)。包含 52 个来自结直肠癌 (CRC)、胰腺导管腺癌 (PDAC)、皮肤黑色素瘤 (SKCM)、子宫体子宫内膜癌 (UCEC)、卵巢癌 (OV) 和乳腺癌 (BRCA) 的转移样本,以及配对的原发癌以及五例 UCEC 和四例 CRC 的转移样本。他们对所有 225 个样本进行了单细胞ATAC分析(snATAC-seq) 分析,并对其中 206 个样本进行了配对单细胞或单细胞核转录组分析 RNA-seq (sc/snRNA-seq)。
snATAC-seq 数据包含来自 225 个样本的 1019175 个细胞核(每个样本的平均细胞核为 4530 个)(图1b)。他们在所有样本中确定了可及的染色质区域(ACR),平均每个样本126196个ACR,大多数出现在内含子(49%),远端基因间(30.8%)和启动子(8.6%)区域。
sc/snRNA-seq细胞注释进一步用于注释snATAC-seq数据集。总共检测到250222个免疫细胞,69684个间质细胞,69506个正常上皮细胞和588895个癌细胞(图1b)。通过将每种癌症类型与所有其他癌症类型进行比较,他们确定了 56001 个组织和癌细胞特异性的差异可及染色质区域 (DACR)。这些DACR中的许多包括组织特异性基因的启动子,例如鳞状癌中的角蛋白基因、OV和UCEC中的PAX8、非基底BRCA中的GATA3、GBM中的PTPRZ1和SKCM中的PAX3。
通过根据染色质可及性和基因表达关联癌细胞和正常细胞(图1c),将以下正常细胞群定义为最接近的正常细胞(CNC):BRCA 的管腔成熟细胞非基础亚型;基底亚型 BRCA 的管腔祖细胞;PDAC 的导管样 2 细胞;用于结直肠癌的远端干细胞;UCEC和OV的分泌型子宫内膜上皮细胞;HNSCC 和 CESC 的正常鳞状细胞;SKCM 的黑色素细胞;ccRCC 的近曲小管细胞;以及 GBM 的少突胶质细胞前体细胞 (OPC)。
他们使用这些 CNC 来消除组织特异性信号,并识别几种癌症类型共有的染色质可及性的癌细胞特异性变化。通过将癌细胞与其各自的 CNC 进行比较,他们发现癌细胞中有 22187 个和 29074 个可及性增加和减少的区域(图1d),根据与最近的转录起始位点(TSS)的DACR可及性,将它们定位到最近的各自基因上。总的来说,53%的DACR位于增强子区,37%位于启动子区,这表明它们与基因表达的功能相关性发生了变化。几个基因表现出与邻近基因组区域可及性增加的泛癌模式,包括溶质载体家族成员SLC38A8、AP1家族转录因子(TF) MAFA和几种癌症的预后生物标志物III类β-微管蛋白(TUBB3) (图1d)。
图1. 11 种癌症类型的染色质可及性模式。
(a)数据生成和研究设计的示意图,显示了收集的癌症类型和样本类型,图谱的构建、注释和整合,以及所研究的生物实体。(b) 综合泛癌 snATAC-seq 对象的均匀流形近似和投影 (UMAP) 图。(c) 来自每个肿瘤的癌细胞与正常组织的正常细胞类型之间的Pearson相关系数。(d) 通过比较癌细胞与 CNC 确定的最重要的癌细胞相关 DACR。气泡大小显示具有可及DACR 的癌细胞的百分比。
02
肿瘤进展中 ACR 与基因的联系
通过使用可及性和基因表达关联恶性和正常上皮细胞,他们发现增强子元件的可及性比启动子的可及性对癌症类型和起源组织更具特异性(图2a)。增强子可及性也比启动子可及性更好地反映了转录本表达,这表明它们在调节基因表达中发挥着至关重要的作用。为了预测 ACR 和基因表达之间的调控关系,他们计算了基于相关性的 ACR 与基因的联系。近一半的 ACR 与基因链接位于基因和 EpiMap 增强子区域之间(图2b),并且大多数增强子 ACR 与基因链接是癌症类型特异性的(图2c),证明组织和癌症增强子的类型特异性。他们观察到397个相关的ACR(其中大多数是增强子)在大多数原发性PDAC肿瘤中获得可及性(图2d)。特别是一个近端和两个远端增强子与最近报道的致癌性ASAP2在PDAC中的表达有关,而其启动子的可及性没有改变。ACR-基因连接的其他值得注意的例子包括TF基因KLF6和PPARG,它们分别与一个和两个增强子连接,在PDAC癌细胞中获得可及性。
图2.癌症转录程序。
(a) 来自同一组织的癌细胞和正常细胞(snMultiome-seq 样本)的样本 Pearson 相关性。 (b) 按癌症类型划分的 ACR 与基因链接的计数,并通过 ACR 的 EpiMap 注释进行着色。 (c) UpSet 图显示大多数增强子与基因的联系是癌症类型特异性的。(d) 与 PDAC 癌细胞中基因表达(下)相关的 ACR(上)的可及性。
03
原发性肿瘤中的调节子
为了更好地了解癌症发展中涉及的转录调控,他们试图定义细胞状态下的 TF 靶基因,使用 SCENIC 来确定每个癌症队列中 TF 与其靶基因(即调节子)之间的调节关系。这一分析揭示了 258 个调节子,其 TF 与其靶标之间的基因表达一致。每个调节子包含 20 至 4310 个靶基因(中位数为 372)。其中,87 个调节子对某些癌症类型表现出高度特异性(图3a)。其中,41 个调节子是组织特异性的(癌细胞和 CNC 之间共有),46 个调节子是癌细胞特异性的(与 CNC 相比,在癌细胞中更活跃)。组织特异性调节子的例子包括BRCA非基底癌中的FOXA1和GATA3、CESC和HNSCC中的KLF4和FOSL1、ccRCC中的HNF1A和KLF9以及CRC和PDAC中的HNF4G和GATA6。
与 CNC 相比,几种调节子在恶性细胞中表现出增强的活性(图3a),包括 BRCA 基底细胞、OV 和 UCEC 中的 MYBL1、CESC 和 HNSCC 中的 TP73、PDAC和ccRCC中的KLF6(图3b)以及PDAC、GBM 和 SKCM 中的 NRF1(图3b)。在这些癌症中,KLF6和NRF1基序的可及性也增加了(图3b),进一步证明了这些TF活性的增强。胰腺癌细胞还表现出几个PDAC特异性调控因子的活性增强,包括PPARG、KLF3、FOXL1、MAFK和GLI2(图3a-b),以及几个与鳞状细胞共有的调控因子,如TP63、FOSL1和ELK3。
他们还发现,与随机基因相比,21个TF的靶基因更有可能与含有这些TF结合基序的ACR结合(图3c-d),从而验证了靶基因表达、ACR可及性和TF活性之间的联系。
接下来,他们使用TF特异性染色质免疫沉淀和ENCODE的测序(ChIP-seq)数据验证了每个TF的靶基因,证实了53 个 TF 中的 51 个与靶基因的直接结合(图3e)。他们对U251 GBM细胞系进行了靶切和核酸酶释放(CUT&RUN)实验,分析了 NRF1 在靶基因启动子处的直接结合,观察到许多不同靶基因的一致结合模式。
图3. 泛癌和癌症特异性调节子。
(a)使用 SCENIC 在 sc/snRNA-seq 数据上识别的组织和癌细胞特异性调节子。(b) 原发性癌细胞和相应 CNC 中的调节子活性评分。(c) 目标基因富集于 TF 特异性 ACR 与基因链接的 TF(包含该 TF 结合位点的 ACR)。(d) 在随机采样的基因中发现的具有 PPARG 特异性 PDAC ACR 与基因链接的基因数量的正态分布示例。(e)靶基因TSS周围存在ChIP-seq峰(ENCODE)、snATAC-seq峰或CUT&RUN峰。
04
癌症转移中的表观遗传学程序
为了识别在从原发到转移的转变过程中改变其活性的 TF,他们比较了四种癌症(SKCM、CRC、PDAC 和 UCEC)的原发细胞和转移细胞之间的TF 基序可及性评分(图4a)。对于CRC,他们观察到几个TF基序在转移细胞中比在原代癌细胞中具有更高的可及性,包括促进CRC细胞迁移的上皮间质转化(EMT)主要调节因子TWIST1和PBX3(图4a)。在PDAC中,他们发现ELF3和GATA6是最显著的具有降低基序可及性的TF。ELF3与上皮表型相关并抑制EMT,在本研究的数据中,它也是一个组织特异性的调控因子(图3a)。
接下来,他们使用由KrasG12D突变和Trp53缺失驱动的PDAC基因工程小鼠模型(p48-cre;LSL-KrasG12D;Trp53flox)来验证GATA6活性在PDAC转移灶中降低。具体来说,他们在匹配的原发性肿瘤和肝组织转移中对GATA6和细胞角蛋白19(癌细胞标志物)进行了多重免疫组织化学(mpIHC)分析。与人类snATAC-seq数据分析的结果一致,他们发现与匹配的原发胰腺肿瘤相比,所有肝转移灶中GATA6+和GATA6high PDAC癌细胞较少(图4b-c)。
他们进一步评估了转移性和原发肿瘤样本中表达上调的DACR通路,发现发育相关通路(如EMT、肌生成和顶端连接)在三个队列中都是显著的,该结果与上皮表型的丧失并涉及转移的重要过程一致(图4d)。他们还观察到在单个队列中特异性富集的通路,例如,TNF信号在PDAC中显著,与已知的KRAS诱导的PDAC中NF-κB活化一致。
最后,他们分析了九个 CRC 和 UCEC 病例的 snATAC-seq 数据。首先,通过将正常上皮细胞与癌细胞组合,观察到由肿瘤细胞组成的不同聚类,每个聚类中原发性和转移性样本之间的患病率不同(图4e-f)。通过对肿瘤和正常上皮细胞进行轨迹分析,他们观察到所有配对的原发-转移样本都遵循线性轨迹,从正常逐渐进展到原发细胞再到转移细胞(图4e-f),这表明伪时间轨迹反映了转移过程。他们发现样本的轨迹与已知的EMT特异性基序和与转移有关的其他基序呈正相关,例如SNAI1和PBX3(图4f)。
图4. 癌症转移中激活的表观遗传程序。
(a) 四种癌症类型中转移样本和原发样本之间具有不同基序可及性的 TF。(b) PDAC小鼠模型中GATA6(红色)表达的mpIHC分析。(c) 与匹配的转移性(met.)PDAC相比,原发性PDAC中的GATA6+和GATAhigh癌细胞百分比更高。 (d) 在转移性肿瘤和原发肿瘤中,来自dacr的标志通路富集上调。 (e-f) UMAP 图(左)显示CRC 病例和 UCEC 病例的配对原发和转移样本。散点图显示细胞沿着 Slingshot 识别的轨迹排序(中),PBX3或 SNAI基序可及性与伪时间进展(右)之间的关联。
05
遗传和表观遗传相互作用
他们还研究了癌症和正常细胞中TERT启动子(TERTp)与热点突变的可及性,分析了两个TERTp突变 C228T(第 5 号染色体,1295113,G 至 A)和 C250T(第 5 号染色体,1295135,G 至 A)。C228T突变主要在GBM癌细胞中检测到,而C250T突变通常在SKCM癌细胞中观察到。在所有样本中,有25个显示TERTp突变,其中大多数变异优先在癌细胞中可获得,这也符合snRNA-seq数据中TERT的高表达(图5a)。相反,在正常细胞中,TERTp位置的snATAC-seq覆盖范围明显较低,表明正常细胞中缺乏TERTp可及性(图5a)。与snATAC-seq数据相比,全外显子组测序(WES)的TERTp突变的变异等位基因频率要低得多,这表明snATAC-seq能够检测到诱导染色质可及性的突变(图5a)。
他们还通过将癌基因的表达与增强子的可及性相关联来评估癌基因的表观遗传调控。他们确定了30个与增强子可及性相关的癌基因,其中最强相关的是EGFR、KRAS、ERBB2、CTNNB1和MET(图5b)。许多致癌基因显示出许多增强子与基因之间的联系,这表明这些基因存在广泛而复杂的表观遗传调控。EGFR在HNSCC中显示最多的链接,这一结果与EGFR基因体中最高的EGFR表达和最高的增强子可及性一致(图5c)。
使用bulk RNA-seq 表达数据对 GBM TCGA 患者的调节子活性进行评分,结果表明 PITX3 活性增加与较差的无进展生存期和较差的总生存期相关 (图5d)。在 TCGA-PDAC 队列中,KLF6 调节子活性增加也与较差的无进展生存期和总生存期相关(图 5d)。
他们进一步研究了人乳头瘤病毒 (HPV) 状态对活性 TF 景观的影响,与 HPV 阴性肿瘤相比,HPV 阳性肿瘤中 KLF4 调节子活性显著降低,这在 TCGA-HNSCC 队列中得到了进一步验证(图 5e)。
图5. 遗传驱动因素对染色质可及性的影响。
(a)从 snATAC-seq 数据和全外显子组测序(WES)数据中检测到五种癌症类型中的TERTp突变(C228T 和 C250T)。(b) 使用 snMultiome-seq 数据识别的已知癌基因的表观遗传调控。(c) BRCA基底细胞、CESC、HNSCC和CRC癌细胞中EGFR区域的覆盖图。 (d) 按 PITX3 调节子活性分层的 TCGA-GBM 队列(上)和按 KLF6 调节子活性分层的 TCGA-PDAC 队列(下)的 Kaplan-Meier 图和无进展生存分析。
+ + + + + + + + + + +
结 论
本项研究使用 225 个样本的单细胞核染色质可及性数据构建了泛癌表观遗传和转录组图谱,并使用 206 个样本的匹配单细胞或单细胞核 RNA 测序表达数据。通过富集可及染色质区域、转录因子基序和调节子,他们对每个平台超过 100 万个细胞进行了分析,确定了与癌症转变相关的表观遗传驱动因素。一些表观遗传驱动因素出现在多种癌症中(例如ABCC1和VEGFA的调节区域;GATA6 和 FOX 家族基序),而另一些则是癌症特异性的(例如FGF19、ASAP2和EN1的调节区域以及 PBX3 基序)。在表观遗传改变的通路中,TP53、缺氧和 TNF 信号传导与癌症发生有关,而雌激素反应、上皮-间质转化和顶端连接与转移转变有关。此外,他们揭示了增强子可及性和基因表达之间的显著相关性,并揭示了表观遗传和遗传驱动因素之间的相互作用。
+ + + + +