文献解读|Adv Sci(14.3):通过全面的糖蛋白质组学分析揭示结直肠癌中 N-糖基化的代谢影响和临床意义
✦ +
+
论文ID
原名:Deciphering the Metabolic Impact and Clinical Relevance of N-Glycosylation in Colorectal Cancer through Comprehensive Glycoproteomic Profiling
译名:通过全面的糖蛋白质组学分析揭示结直肠癌中 N-糖基化的代谢影响和临床意义
期刊:Advanced Science
影响因子:14.3
发表时间:2025.04.26
DOI号:10.1002/advs.202415645.
背 景
结直肠癌 (CRC) 的进展涉及多方面的遗传/表观遗传改变,对全球健康构成重大挑战。人们越来越认识到异常的 N-糖基化在 CRC 发病机制中起着关键作用。目前,完整的 N-糖结构及其修饰位点的生物学功能仍未阐明。准确全面地量化 N-糖基化对蛋白质状态变化的影响仍然是一个重大挑战。由于 N-糖的结构多样性和动态特性,准确地确定其具体功能和调控机制仍然具有挑战性,这限制了大众对癌症中 N-糖基化的理解。
实验设计

结 果
01
CRC 的糖蛋白质组学概况
为了阐明 N-糖基化在 CRC 中的作用,研究团队对 45 例收集的 CRC 肿瘤和癌旁正常组织(NAT)进行了深入的蛋白质组学和 N-糖蛋白质组学分析(图 1A)。所有组织均已裂解以提取蛋白质,然后进行胰蛋白酶消化。使用 ZIC-亲水相互作用液相色谱 (ZIC-HILIC) 富集完整N-糖肽(IGP)后,对所得肽混合物进行蛋白质组学分析或 N-糖基化分析。然后分别使用 MaxQuant 和 pGlyco3 分析质谱数据以进行整体蛋白质组学和 N-糖蛋白质组学分析。他们定量了 7567 种蛋白质和属于 704 种蛋白质的 7125 种独特的 IGP(图 1B)。随后,他们将组学结果与样本的相关临床信息整合在一起。主成分分析 (PCA) 表明,无论是在蛋白质组学数据(图 1C)还是 N-糖蛋白质组学数据(图 1D)中,成对的 NAT 都能有效地聚类在一起,并与肿瘤样本明显区分开来。与蛋白质组学数据相比,N-糖蛋白质组学图谱在样本之间表现出更大的变异性(图 1C-D),表明异质性更高。此外,他们使用了 Pearson 统计方法比较了本研究多组学数据与公共数据之间的相关性,包括癌症基因组图谱 (TCGA) 转录组和临床蛋白质组肿瘤分析联盟 (CPTAC) 蛋白质组学数据,结果支持转录组学和蛋白质组学之间存在正相关性,而 N-糖蛋白质组学与其他组学之间存在弱负相关性。
为了进一步研究本研究中检测到的糖蛋白可能发挥作用的亚细胞区室或大分子复合物,他们进行了基因本体细胞成分 (GO CC) 分析。结果显示,含胶原的细胞外基质 (ECM)、液泡腔和初级溶酶体富集最为显著(图 1E)。先前的研究表明,细胞外蛋白质的失调与结直肠癌的发生和发展密切相关,对 ECM 蛋白质组成和结构的深入研究为癌症治疗提供了新的见解。然而,大多数这些 ECM 蛋白具有多个 N-连接糖基化位点和复杂的 N-糖链,这极大地复杂化了肿瘤发生中 N-糖基化作用的研究。在本研究的数据中,发现 57.4% 的 N 连接糖基化位点具有多个 N 糖结构,30.7% 的糖蛋白具有多个糖基化位点(图 1F)。例如,癌胚抗原相关细胞粘附分子 5 (CEACAM5) 是已知的 CRC 预后标志物,在本研究的 N 糖蛋白质组学数据中,该基因包含多达 319 种 N 糖基化形式,其中 9 个 N 连接糖基化位点和 99 个 N 糖(图 1G)。总体而言,N 糖蛋白质组学显著扩展了蛋白质组中膜蛋白和分泌蛋白的多样性和数量,使其成为增强致瘤能力的潜在来源,并为癌症治疗提供了众多靶点。

图1. 结直肠癌队列中 N-糖蛋白的概览。
(A) N-糖蛋白质组学样品制备和后续质谱分析的工作流程。(B) 已鉴定的糖肽(红点)和蛋白质(灰点)的数量。(C) 蛋白质组学数据的主成分分析 (PCA)。(D) 糖蛋白质组学数据的 PCA。(E) 糖蛋白的 GO 富集分析。(F) 每种糖蛋白的糖基化位点和 N-糖链数量。(G) CEACAM5 的糖基化位点和糖型。
02
潜在的相互作用模式依赖于不同的糖基形式
为了探索 N-糖基化的复杂结构对其功能的影响,他们根据单糖组成定义了五种糖型:唾液酸化(Sia,A)、岩藻糖化(Fuc,F)、唾液酸化-岩藻糖化(FA)、高甘露糖(Hm,H)和高 HexNAc(Hn,N)(图 2A)。通过根据唾液酸、岩藻糖或延伸甘露糖残基的存在与否对糖型进行分组,他们简化了复杂的 N-糖谱。N-糖蛋白质组学分析显示,N-糖型的比例不同,其中 Hm(30%)和 Fuc(38%)在 CRC N-糖蛋白质组学中占主导地位。 Hm 组含有最多数量的糖蛋白,而 Fuc 组中的 N-糖基化位点更聚集在同一蛋白质上(图 2B)。大多数观察到的非 Hm 糖型与较低的甘露糖含量相关,代表较低的 N-糖骨架,尤其是 Fuc。岩藻糖基化是指 Hn 五糖核心内肽近端 GlcNAc 部分的末端修饰,而 IGP 主要限于 Asn-X-Ser/Thr/Cys(X 不等于 Pro)共识序列。通常,人类 N-糖基化途径至少涉及 173 种糖基转移酶,它们的替代表达有助于产生多种糖型。为了研究不同糖基形式的IGP基序之间是否存在差异,他们比较了人类蛋白质组中共识序列周围的氨基酸,发现酸性氨基酸(如Asp和Glu)在Sia(A,+4,+6,+7,-1,-5)和FA(+4,+6,+7)中明显偏向于酸性氨基酸(如Tyr或Thr),而极性氨基酸如Tyr或Thr则倾向于位于Hm和Fuc(-1,-5)中(图 2C)。对于Hn,带正电荷的氨基酸通常位于位置(-2,-3,-4,-5),疏水性氨基酸主要位于位置(-1,+1,+3,+4,+5)。
通过分析不同糖型的亚细胞定位偏好,他们发现 Sia 和高 Hn 糖蛋白主要位于分泌区和膜区,但与 Hm 相比,在内质网 (ER) 中发现的频率较低。UniProt 亚细胞定位注释显示 Hm 糖蛋白在膜和 ER 中的分布模式相似,而 Sia 糖蛋白主要作为分泌蛋白,F1-糖蛋白(主要是 Fuc)表现出与 Hm 糖蛋白相同的定位偏好(图 2B)。
分泌型配体与特定细胞表面受体的结合对于协调增殖、迁移和分化等各种生物过程至关重要。为了描述亚细胞定位与不同 N-糖(主要是 Sia 和 Hm)之间的关系,他们从 celltalker 数据库中专门提取了注释为受体和配体的蛋白质。定位分析表明,受体主要分布为膜蛋白,而配体主要分为分泌蛋白和膜蛋白(图 2E)。在 N-糖组成方面,与配体相比,受体中 HexNAc 的比例更高,而Sia的比例较低,表明受体中对 Hm 的偏好更高(图 2F)。
就糖基化形式而言,受体含有大量的高Hm,尤其是H5至H9结构,而与配体相比Sia较少(图 2G)。值得注意的是,唾液酸是一种带负电荷的羧酸酯,通常位于N-糖基化的末端,而Hm在末端有多个羟基,这可能决定了配体-受体相互作用中的特定功能。例如,EGFR是刺激癌细胞分化和增殖的关键受体蛋白,可由其各自的配体激活,如EGF和核心蛋白聚糖(DCN)。虽然EGFR表现出七种糖肽变体,但它们的Hm数都落在从H5到H8的较窄范围内。相比之下,DCN呈现出更加多样化的糖基化特征,以16种不同的Sia糖基化形式和10种Hm糖基化形式为特征。在这些众多的糖基化形式中,DCN 只有一个实例的己糖超过六个。这一比较凸显了受体 EGFR 及其配体 DCN 之间独特的糖基化模式,这可能对它们之间的功能性相互作用及其在癌症生物学中的作用具有重要意义。
通过分析配体和受体不同糖型之间的关联性,以及羟基和羧基的性质,他们提出了一个基于糖型识别和相互吸引来定义配体-受体连接的模型(图 2H)。该模型表明,配体中表面修饰的糖型含有更多羧基,例如唾液酸,而受体更有可能发生羟基修饰,例如甘露糖,导致蛋白质表面特定位点发生差异静电相互作用,从而产生相互吸引和“识别”的离子力。

图2. 差异完整糖肽的注释和分析。
(A) 根据 N-糖链单糖组成定义五种糖型。(B) 单 N-糖基化和多 N-糖基化蛋白质的比例,颜色表示每种蛋白质中 IGP 的数量。(C) 每种糖型的基序组成。不同的颜色代表不同的分类。(D) UniProt 数据库每种糖型的定位类别汇总。(E) 条形图显示本研究数据中检测到的受体(蓝色)和配体(红色)蛋白的 UniProt 定位类别。(F) 受体(蓝色)和配体(红色)蛋白中每种单糖组成的数量。(G) 热图显示每种糖蛋白中各糖型的数量。(H) 基于不同糖型的潜在相互吸引/结合模式。
03
N-糖基化动力学对糖蛋白功能和CRC进展的影响
他们对肿瘤和NAT的整体N-糖蛋白质组进行了定量比较,观察到肿瘤中IGP普遍上调,而蛋白质组学分析未显示显著变化。整体IGP与这些糖蛋白的表达水平呈显著负相关(图3A)。与NAT相比,肿瘤中上调的糖蛋白在蛋白质消化吸收、ECM-受体相互作用、粘着斑和PI3K-Akt信号通路中显著富集,而下调的糖蛋白在内质网的蛋白质加工中显著富集(图 3B)。
此外,通过比较 IGP 和糖蛋白水平的差异丰度,他们观察到 CRC 肿瘤和 NAT 之间各种糖形式的不同表达谱(图 3A)。结果表明,虽然肿瘤中的整体 IGP 糖形式高于 NAT,但它们的变化程度却截然不同,顺序为:Sia > Fuc (FA) > Hm。然而,在蛋白质组学中,只有 Hm 糖蛋白的水平显著高于非 Hm 糖蛋白。考虑到 Sia 与膜蛋白的关联以及 Hm 与分泌蛋白的关联,他们假设糖形式的动态变化可能导致蛋白质功能障碍。分泌蛋白,特别是那些用 Sia 修饰的蛋白,表现出更明显的上调。相反,膜蛋白的糖基化形式发生了显著变化,上调和下调的比例相似,尤其是Hm。研究发现,上调的Sia和Hn修饰的分泌蛋白与补体和凝血级联更相关,而由Hm修饰的膜蛋白与细胞粘附分子更相关。总之,这些结果强调了Hm和主要以Sia为主的非Hm糖蛋白(以S-糖基化形式表示)在CRC进展中的关键作用,这可能决定了它们不同的细胞功能。
接下来,为了全面表征各种糖型的结构和功能差异,他们根据肿瘤与 NAT 的中位 IGP 比率以及 Hm- 和 S-糖型的数量将所有糖蛋白分为六组,然后进行 STRING数据库富集分析(图 3C)。Up-S 和 Down-Hm 组的功能聚类与其他组的功能聚类差异更显著。Up-S 聚类显示出更多的内切肽酶抑制剂活性富集并且主要位于高尔基腔中(图 3C)。然而,Down-S组显著富集于细胞粘附和免疫反应通路。这些结果共同表明Sia在高尔基体腔内驻留蛋白中高表达,有助于抑制蛋白酶活性,同时降低细胞粘附和免疫反应蛋白的修饰。值得注意的是,他们还鉴定出一些在Up-Hm组中趋于下调的胃肠道相关蛋白(图 3C),表明糖基化修饰具有组织特异性。

图3. 基于IGP表达模式和组成的糖蛋白分类。
(A) 比较分析肿瘤和NAT中IGP及其对应蛋白的差异丰度变化。(B) 热图显示基于肿瘤和NAT中IGP丰度变化的KEGG通路富集糖蛋白。(C) CRC-糖蛋白-糖基-聚糖树。
04
建立 N-糖基化变异模型以分析 CRC 进展
他们准确地鉴定了所有样本中 IGP 的表达,以比较不同糖基化形式的比例。虽然几乎所有糖基化形式在癌症组织中都增加了,但改变率明显是不同步的(图 3A),与 NAT 相比,一些糖基化形式在肿瘤中的比例明显较低(图 4A)。为了准确地将糖基化形式比例与 CRC 的发生和发展联系起来,他们使用每个样本中每种糖基化形式的中位总丰度作为其代表值,以比较差异和评估糖基化模式的变化(图 4A)。AUC 用于评估评分系统在 CRC 患者中的诊断潜力。他们确定 Sia 是区分肿瘤和正常组织的最佳标志物(图 4B)。其次,为了评估所有糖型的协同作用,他们比较了不同糖型的中位表达量,发现Sia和Hm的组合中位表达量在区分CRC和NAT方面更有效(图 4B-C)。值得注意的是,肿瘤中的PTM比率显著高于癌旁配对组织(图 4D),这表明该比率可能与患者自身有关,而非肿瘤本身的发展。
接下来,考虑到糖基化在蛋白质稳定性调节中的作用,他们试图研究IGPs变化与蛋白质组学动力学之间的相关性。他们发现整体蛋白质表达与定义的分数呈显著正相关(图 4E),另一方面,由于糖基化是一个酶催化过程,他们进一步探索了哪些酶与稳健分数密切相关。他们观察到比率得分与组织α-L-岩藻糖苷酶(FUCA1)呈负相关,与ERO1样蛋白α(ERO1A)呈正相关(图 4F-G)。这些结果表明,整体糖基化会显著干扰 CRC 中的蛋白质组失调,而本研究中使用的比率方法可能与 CRC 进展中 N-糖基化破坏的程度更密切相关。

图4. 鉴定与CRC发展相关的稳健糖型评分。
(A) 各糖型丰度按Wilcoxon秩和检验的P值缩放。(B) 糖型丰度中位数及其不同比例组合的受试者工作特征曲线 (ROC)。(C) 最佳组合的ROC曲线,以中位数H为分子,A与N之和为分母。(D) 最佳组合结果区分肿瘤(红点)和NAT(蓝点)。(E) 相关值与蛋白质差异丰度变化之间的相关性。 (F) 最佳组合结果与FUCA1丰度之间的相关性。 (G) 最佳组合结果与ERO1A丰度之间的相关性。
05
基于深度学习识别结直肠癌的预后特征
蛋白质生物标志物有助于早期诊断、预后评估、个性化治疗选择、疗效监测和耐药性预测,从而提高诊疗的精准度和有效性。新兴证据还表明,大规模表征异常糖蛋白对于发现新的生物标志物和治疗靶点具有巨大潜力。为了进一步将本研究的结果与临床实践相结合,他们探索了N-糖基化诊断特征在CRC患者中的潜力,使用ROC曲线分析了糖蛋白质组学数据,结果显示多个IGP可以显著区分肿瘤和NAT(图 5A)。不同糖型的区分能力存在差异,其中Sia表现最佳(图 5B)。事实上,糖蛋白在区分肿瘤和NAT方面比非糖蛋白更有效(图 5C),这与分泌蛋白的发现相似。
为了加快本研究成果的潜在临床应用,他们选择了 N-糖修饰最丰富的 10 种糖蛋白。其中,8 种在超过 90% 的样本中可检测到(图 5D)。使用逻辑算法,他们发现组合这 8 种糖蛋白可以高度区分肿瘤样本和 NAT,AUC 达到 0.979(图 5E)。此外,通过将逻辑回归与随机森林分析相结合,他们鉴定出两种糖蛋白 CLCA1 和 OLFM4,它们有可能成为 CRC 糖蛋白特征(图 5F)。多因素识别模型和对这两种糖蛋白的联合分析提高了区分肿瘤组织和 NAT 的性能,随机森林和逻辑回归算法的 AUC 值分别为 1和 0.969(图 5F)。该结果通过公开数据进一步验证,结果显示训练集的 AUC 为 1(图 5G),验证集的 AUC 为 0.952(图 4H)。
为了了解多因素识别模型的潜在临床应用,他们进行了免疫组织化学 (IHC) 分析,并使用包括肿瘤组织和 NAT 在内的组织微阵列数据建立了多变量 Cox 回归比例风险模型,结果证实该模型可有效预测患者预后(图 5I)。总体而言,本研究对 CRC 中的糖蛋白进行的深度学习分析确定了几个有希望的修饰位点,并选定糖蛋白作为组合生物标志物。这些发现表明,通过机器学习彻底分析的糖蛋白和糖基化修饰位点可以作为结直肠癌的宝贵生物标志物。

图5. 筛查潜在的CRC预后特征。
(A) 点图显示每种IGP的AUC值。(B) 箱线图显示每种糖型的AUC值。(C) 糖蛋白与非糖蛋白的AUC值比较。(D) IGP数量最多的前10种糖蛋白。颜色代表每种蛋白质所有位点的N-糖平均数量,饱和度越高代表平均值越高。(E) ROC曲线显示多种糖蛋白逻辑回归模块在CRC识别中的表现。(F) ROC曲线显示使用CLCA1和OLFM4组合构建随机森林模型的结果。(G) ROC 曲线展示了使用公开数据对 CLCA1 和 OLFM4 随机森林模型进行训练的结果。(H) ROC 曲线展示了使用公开数据对 CLCA1 和 OLFM4 随机森林模型进行测试的结果。(I) 免疫组化 (IHC) 患者的多因素生存分析采用 Cox 回归分析。
06
APMAP-N196 的 N-糖基化在体外验证为 CRC 的潜在调节
N-糖基化可以通过改变蛋白质的稳定性、活性和亚细胞定位来显著影响蛋白质相互作用、免疫识别、降解和信号转导,从而影响其生理功能。因此,了解特定位点糖基化的作用对于阐明蛋白质功能和制定治疗策略至关重要。
脂肪细胞质膜相关蛋白 (APMAP)是一种血清糖蛋白,与上皮间质转化 (EMT) 有关,可促进肿瘤侵袭和转移,是 CRC 早期诊断的潜在生物标志物。APMAP (APMAP.N196.4200) 的 N196 位点的 N-糖 Hex[4]HexNAc[2]NeuAc[0]Fuc[0] 是 CRC 组织中改变最显著的 N-糖基化(图 6A),其在肿瘤中的 IGP 丰度降低至 NAT 中的 1.1%(图 6B)。
为了研究 APMAP-N196 糖基化在 CRC 进展中的调控作用,他们生成了内源性 APMAP 耗竭的 HCT116 细胞,然后重新引入野生型 (WT) APMAP 或 N196D 突变体 APMAP(图 6C)。鉴于 APMAP 在增殖和迁移中的作用,他们对表达 WT 或 N196D 突变体 APMAP 的 HCT116 细胞进行了 CCK-8 和伤口愈合试验,以评估 N196 糖基化的影响(图 6D-G)。增殖试验表明,与 WT 相比,N196D 突变体增强了增殖(图 6D)。同样,APMAP-N196D 的异位过表达导致 HCT116 细胞增殖比 WT 更大(图 6E)。伤口愈合试验还表明,N196D 突变相对于 WT 增加了细胞迁移(图 6F-G)。这些发现表明,与 NAT 相比,肿瘤组织中的 APMAP-N196 位 N-糖基化显著降低,这种降低进一步促进了 CRC 进展,从而为 CRC 进展和潜在的治疗干预提供了新的见解。

图6. APMAP-N196 糖基化导致 CRC 恶性肿瘤。
(A) 点图描绘了 CRC 中 IGP 与 NAT 相比的变化。(B) 箱线图比较了肿瘤和 NAT 之间 APMAP.N196.4200 IGP 的丰度。(C) HCT116 细胞中 APMAP 的挽救性表达。(D) HCT116 细胞中的细胞增殖情况。(E) CCK-8 检测评估异位过表达 WT APMAP 或 APMAP-N196D 突变体的 HCT116 细胞的增殖情况。(F) 伤口愈合实验的代表性图像显示,与 WT 相比,APMAP-N196D 突变体促进了细胞迁移。(G) 使用 ImageJ 软件量化伤口愈合实验中 HCT116 细胞的迁移水平。
+ + + + + + + + + + +
结 论
本文对 45 例 CRC 肿瘤及其匹配的正常癌旁组织 (NAT) 进行了全面的蛋白质组学和 N-连接完整糖蛋白质组学分析,从 704 种糖蛋白中鉴定出 7125 个完整的 N-糖肽。通过分析糖型表达谱和结构特征,构建了糖基化位点-蛋白质功能关联网络,以揭示 CRC 中由 N-糖基化驱动的代谢失调。此外,还开发了一个整合 N-糖表达模式的算术模型,该模型可有效区分肿瘤和 NAT,从而反映癌症中的代谢重编程。这些研究结果将氯通道辅助蛋白1 (CLCA1) 和嗅觉调节蛋白4 (OLFM4) 确定为CRC诊断的潜在代谢生物标志物。免疫组织化学和Cox回归分析验证了这些标志物的预后价值。值得注意的是,脂肪细胞质膜相关蛋白 (APMAP) N196位特异性N-糖基化的关键作用凸显,该位点在肿瘤代谢和CRC进展中起着关键作用,为治疗干预提供了潜在的靶点。这些研究结果为理解N-糖基化在CRC中的代谢作用提供了宝贵的见解,有助于促进生物标志物的发现,提高基于代谢的诊断精准度,并改进针对癌症代谢的个性化治疗策略。
+ + + + +
