文献解读|Adv Sci(15.1):揭示房水蛋白的隐藏世界,以发现马凡氏综合症的生物标志物
✦ +
+
论文ID
原名:Uncovering the Hidden World of Aqueous Humor Proteins for Discovery of Biomarkers for Marfan Syndrome
译名:揭示房水蛋白的隐藏世界,以发现马凡氏综合症的生物标志物
期刊:Advcanced Science
影响因子:15.1
发表时间:2023.12.21
DOI号:10.1002/advs.202303161
背 景
晶状体异位是马凡综合征 (MFS) 的一个标志,马凡综合征是一种遗传性结缔组织疾病,影响全世界 1/5000 至 1/10000 人。眼科诊所及早发现心血管并发症并及时干预可以挽救生命。房水(AH)是一种透明液体,滋养眼前段的无血管组织,对于许多生理功能至关重要。AH采样和分析在临床实践中经常用于帮助眼部疾病的诊断和治疗。
实验设计
结 果
01
AH谱库的生成及其总体特征
在发现阶段,研究者团队通过基于 LC-MS/MS 的数据独立采集 (DIA)和无标记定量分析了来自 53 名儿童的 53 个 AH 样本[27个 MFS 和 26 个白内障对照 (CC)]和 10 个晶状体囊组织样本(图1)。病例和对照的性别、年龄、AL、K1、K2、Km、Cyl、轴和前房深度(ACD)总结于表 1中。首先,他们进行差异丰度分析并比较每组中两个配对样本之间的差异表达蛋白(DEP)。功能富集分析用于揭示晶状体异位的生物样本特征,并进一步探索 MF 综合征的潜在生物学途径。
图1. 实验流程概述。
表1. 发现阶段入组患者的临床特征。
本项研究的AH 特异性谱库包含 11041 个前体、9655 个肽、9044 个蛋白肽、2450 个蛋白质和 2306 个蛋白质组数据。前体质量范围为400 ~ 1200 m/z,约81.6%的前体质量在450 ~ 800 m/z之间(图2A)。前体主要表现为2个(68.9%)或3个(29.2%)电荷(图2B)。91.1% 的肽长度在 7 到 20 个氨基酸之间,与基于酶促和质谱裂解的一般模式一致(图 2C)。脲甲基是 2781 种肽中最常见的修饰(图 2D)。大多数蛋白质鉴定为具有至少两种蛋白型肽,而11464个蛋白质具有超过20种蛋白型肽(图 2E)。94.1% 的肽拥有超过 6 个碎片离子(图 2F)。此外,由于胰蛋白酶消化 C 末端的碱性残基,y 离子片段 (84.5%) 比 b 离子片段 (15.5%) 更容易检测到(图 2G)。一种 (74.0%) 和两种 (24.9%) 电荷构成了碎片电荷分布的大部分(图 2H)。
图2. 房水(AH)光谱库的生成及其总体特征。
(a) 前体 m/z 分布。(b) 不同前体电荷状态的计数。(c) 肽长度的分布。(d) 修饰肽的数量以及不同修饰的分布。(e) 每种蛋白质的蛋白肽数量。(f) 每个母离子的碎片离子比例。(g) b、y离子的百分比。(h) 碎片离子不同电荷的比例。
02
综合蛋白质组分析和功能富集分析
在 AH 和晶状体囊中分别鉴定出总共 2336 和 3853 个蛋白质,其中有 2300 和 2938 个可比较的蛋白质。MFS 和 CC 之间蛋白质发生了显著差异(图3B)。在 AH 中鉴定了 449 个 DEP,特别是 155 个上调蛋白和 294 个下调蛋白。其中38.84%来自细胞外间隙,这与AH的生理特性一致。此外,比较显示晶状体囊中有 326 个 DEP(38.04% 细胞质亚细胞定位),其中 178 个上调蛋白和 148 个下调蛋白(图 3C)。AH 和晶状体囊蛋白质组之间通常只有 20 个 DEP 存在丰度差异(图 3A),与常见检测到的蛋白质总数(图 3A)相比,这个数量要小得多。通过分析重叠蛋白的 Log2 FC 来详细比较它们(图3D)。在 MFS 和 CC 中的相对丰度等级之间的线性相关性(图3E)。值得注意的是,这些蛋白质在 AH 中的检测水平通常比晶状体囊中低得多,这可能反映了组织渗漏。
图3. 儿童 AH 和晶状体囊的综合蛋白质组学分析。
(a) 维恩图显示 AH 和晶状体囊中的总体蛋白质(左)和 DEP(右)。(b) 火山图(左)和极面积图(右)显示 MFS 和 CC 患者 AH 中的 DEP 及其亚细胞定位。(c) 火山图(左)和极面积图(右)显示 DEP 及其在 MFS 和 CC 患者晶状体囊中的亚细胞定位。(d) 九象限图显示了 AH 和晶状体囊中重叠蛋白的分布。(e) AH-晶状体囊蛋白质组丰度图显示重叠蛋白质的中值蛋白质强度。
为了进一步研究 DEP 在 MF 综合征中的生物学功能,他们进行了全面的功能富集分析。基于AH中检测到的449个DEP(图 4A),构成晶状体蛋白主要成分的Beta/Gamma晶状体蛋白是最显著富集的蛋白质结构域,表明它们可能泄漏或分泌到AH中。还发现这些 DEP 涉及几种主要分子功能,即眼晶状体的结构成分、脂质结合、钙通道调节剂活性、泛素特异性蛋白酶结合以及 C5a 和 C5L2 过敏毒素趋化受体结合(图4B)。此外,通路注释和富集分析显示,上调蛋白在补体和凝血级联以及PPAR信号通路中过多表达,而下调蛋白在糖酵解/糖异生和丙酮酸代谢中富集(图 4C)。
他们还分析了晶状体组织中的 DEP,通过映射到细胞成分来探索异位晶状体的潜在机制。获得的结果显示参与粘着斑、RISC负载复合物和细胞后缘的蛋白质失调(图 4D)。为了进一步基于DEP功能分类进行层次聚类,他们首先根据差异倍数将它们分为4类,称为Q1至Q4。然后,对于每个Q组,分别富集分子功能、细胞成分和KEGG通路,并进行聚类分析以发现对照组中蛋白质功能与差异表达倍数的相关性(图4A-D,右)。数据表明,AH 中与补体和凝血级联相关的 DEP 在 Q3 聚类中突出显示,而糖酵解/糖异生和丙酮酸代谢相关的 DEP 在 Q1 聚类中。
图4. MFS 和 CC 患者的关键通路、功能和蛋白质特征。
(a) AH 中 DEP 域的富集弦图(左)及其四组层次聚类分析(右)。(b) AH 中 DEP 分子功能的富集弦图(左)及其四组层次聚类分析(右)。(c) AH 中 DEP KEGG 通路的富集气泡图(左)及其四组层次聚类分析(右)。(d) 晶状体囊中 DEP 细胞成分的富集气泡图(左)及其四组层次聚类分析(右)。
03
具有临床意义的蛋白质模块的鉴定
层次聚类分析揭示了样本之间的密切关系,表明不需要排除任何样本,所有样本都可以用于WGCNA(图5A)。选择功率值(β)8作为构建邻接矩阵的软阈值,基于β=8的所得网络表现出无标度拓扑(图 5B-C)。利用层次聚类和动态树切割方法,总共获得了7个不同的共表达模块,每个模块用不同的颜色表示,即绿松石色、棕色、黄色、绿色、蓝色、红色和灰色模块,灰色表示无法分配给任何模块的基因(图 5D)。图 5E显示了模块的拓扑重叠图 (TOM)。根据 ME 的聚类树状图区分不同的模块,并且图 2F中的特征基因邻接热图中描述了模块-模块关联。他们还分析了模块和表型数据之间的相关性(图 5G)。MEbrown、MEyellow和MEblue与Km有显著的相关性,MEturquoise、MEbrown和meed与Cyl有很强的相关性。MEyellow和MEblue与ACD高度相关。
他们分析了眼部特征与每个特征中绝对值最高的前 10 个蛋白质之间的相关性(图5H)。由此产生的三个关键模块 MEbrown、MEyellow 和 MEblue 主要与 AL 和角膜角膜曲率测量(K1、K2、Km)相关,相应地,较长的 AL 和较平坦的角膜是 MFS 患者的两个显著特征(图 5I)。通过在 PPI 网络中绘制中心蛋白(图5J,上),它们的生物连续性在 AL 或角膜曲率相关模块中的蛋白质中得到了很好的展示。这些模块富含胶原蛋白、补体、细胞因子和调理素结合以及核糖体结构分子功能(图5J,下)。
图5. 鉴定具有临床意义的蛋白质模块。
(a) 用于异常值检测的样本聚类。(b) 无标度拓扑标准的功率变换分析和评估。(c) 无标度拓扑分析。(d) 基于层次聚类树状图鉴定了高度共表达蛋白质的七个不同模块。(e) 独特模块的 TOM;红色阴影标志着网络中相关蛋白质之间共享的更高的拓扑重叠。(f) 特征蛋白树状图和热图,其中红色和蓝色分别代表特征蛋白的高相关性和低相关性。 (g) 根据模块特征基因的聚类树状图绘制模块-性状相关图。(h) 弦图显示眼部特征与每个特征中 GS 值最高的前 10 个蛋白质之间的相关性。(i) 本研究重点关注的 MFS 的临床病理学特征。(J) MEbrown、MEyellow 和 MEblue 三个核心模块中蛋白质的 PPI 网络(上)和分子功能富集分析(下)。
04
基于机器学习的生物标志物组选择
他们评估了定量蛋白质作为机器学习的输入特征,并使用 SVM 算法确定了最相关的蛋白质。他们进行了单变量特征分析,以分析每种蛋白质在区分两类患者(MFS或CC)中的重要性,并随后根据其得分和p值对其进行排序(图6A),获得了排名前30位的蛋白(图6B)。为了获得候选的最佳子集,他们采用了IFS方法(图6C)。他们使用 AUC 评估了所选蛋白质的预测性能。一组表现出最高 AUC 的候选特征是最相关的特征。使用这些蛋白质作为特征,生成了最佳的诊断模型。映射到四种不同基因产物(CCN2、ARFIP1、GALE 和 MYOC)的四个排名最高的特征在区分患者方面表现出最佳性能。他们创建了描述皮尔逊相关系数和定量水平的热图,数据表明该模型没有冗余(图 6D-E)。在测试集中,诊断模型显示组合 AUC 为 0.98(图 6F)。箱线图展示了从所有样本中获取的相对表达变化(图 6G)。
图6. 基于机器学习的生物标志物识别。
(a) 特征辨别能力的评估和排序表达特征的可视化。 (b) 条形图显示得分最高的前 30 个特征。(c) 生成 IFS 曲线,以识别表达特征的最佳子集,从而使用增量特征选择方法以最高精度预测样本类别。(d) 热图显示了不同样本类中所选特征的表达数据的 Pearson 相关系数。(e) 热图显示所有样本的最佳特征子集中蛋白质的表达水平。(f) ROC 曲线显示所选特征对训练和测试数据集中的样本进行准确分类的能力。 (g) 箱线图显示不同样本组之间蛋白质表达的分布差异。
05
选定的生物标志物验证和临床相关性
在独立队列中对候选蛋白进行PRM验证。在预测儿童MF综合征最相关生物标志物特征的16个排名靠前的肽中,有12个蛋白因其显著的临床价值而从加权相关网络分析 (WGCNA)中鉴定出来,而其他4个蛋白则来自机器学习。由于灵敏度的限制,他们只能识别一些蛋白质的一种肽。值得注意的是,4个蛋白[Q14376、Q99972、P02760、Q07507;基因名称GALE(udp -半乳糖-4-差向异构酶)、MYOC(心肌蛋白)、AMBP(Alpha-1-微球蛋白/比库肽前体)、DPT(皮肤桥蛋白)]在这个独立样本集中是最稳健的(图7A-D)。此外,他们分析了这些潜在生物标志物水平与临床特征之间的相关性(图7E-G)。结果表明,Q14376、Q99972和P02760与角膜测量(K1、K2、Km)呈负相关,而P02760和Q07507与AL呈正相关。
图7. 通过 PRM 验证和临床相关性绘制生物标志物表达图。
(a) 验证队列中肽 TWNAVLLR(对应于蛋白质 Q14376)的碎片离子峰面积分布。(b) 验证组中肽 ELETAYSNLLR(对应于蛋白质 Q99972)的碎片离子峰面积分布。(c) 验证队列中肽 TVAACNLPIVR(对应于蛋白质 P02760)的碎片离子峰面积分布。(d) 验证队列中肽 YFESVLDR(对应于蛋白质 Q07507)的碎片离子峰面积分布。(e-g) 临床指标与蛋白质生物标志物的Pearson相关性分析。
+ + + + + + + + + + +
结 论
在 AH 和晶状体囊中分别鉴定了超过 2300 种和 2938 种类似蛋白质。功能富集分析揭示了 MFS 中补体和凝血相关途径、胶原蛋白结合和细胞粘附的失调。通过WGCNA和机器学习模型,构建了与临床特征相关的不同模块,并定义了独特的生物标志物组(Q14376、Q99972、P02760、Q07507;基因名称:GALE、MYOC、AMBP、DPT)。这些生物标志物在独立患者队列中使用先进的平行反应监测 (PRM) 得到进一步验证。这些结果为异位晶状体的蛋白质组表征提供了新的见解,并为开发有价值的生物标志物组提供了一种有前途的方法,以帮助通过 AH 蛋白质组早期诊断马凡综合征。
+ + + + +