文献解读|Nat Genet(31.7):儿童和青少年血浆蛋白质组变异及其遗传决定因素
✦ +
+
论文ID
原名:Plasma proteome variation and its genetic determinants in children and adolescents
译名:儿童和青少年血浆蛋白质组变异及其遗传决定因素
期刊:Nature Genetics
影响因子:31.7
发表时间:2025.02.19
DOI号:10.1038/s41588-025-02089-2
背 景
过去四十年来,全球儿童肥胖患病率显著上升,患上糖尿病前期、代谢综合征、哮喘和脂肪肝的风险显著增加。研究儿童肥胖对于了解其健康后果和制定有效的预防和治疗策略至关重要,但是目前对儿童发育过程中血浆蛋白质组变异决定因素的理解仍不完整。
实验设计

结 果
01
设计发现和复制队列
本研究发现队列包括来自 HOLBAEK 研究的 2147 名 5-20 岁儿童和青少年,其中 45% 来自普通人群,55% 来自丹麦霍尔拜克儿童肥胖诊所(图1a)。为了验证遗传因素对血浆蛋白水平的影响,研究团队额外纳入了来自HOLBAEK研究的1000名儿童和青少年,以及558名19-82岁的酒精相关性肝病成年患者,并与从丹麦南部地区招募的健康对照组进行匹配。他们进行了基于单核苷酸多态性 (SNP) 的基因分型和基于 MS 的血浆蛋白质组分析(图1b),采用数据非依赖性采集 (DIA) 策略和单次运行工作流程获取了所有参与者的血浆蛋白质组图谱(图1c),并分析了年龄、性别、调整年龄和性别的体重指数 (BMI) 标准差评分 (BMI-SDS) 和520万个SNP对血浆蛋白水平的影响(图1d)。

图1. 研究概述和蛋白质组学工作流程。
(a) 本研究中使用的发现和复制队列。(b) 在发现和复制队列上进行基于 MS 的血浆蛋白质组分析和基于 SNP 的基因分型。(c) 蛋白质组分析工作流程和用于处理蛋白质组学数据的分析方法。
02
人口和健康因素对血浆蛋白质组的影响
他们分析蛋白质所代表的生物过程,最常见的过程包括补体和凝血级联、代谢和炎症反应,反映了血浆蛋白在免疫、血液凝固和运输中的关键作用(图2a)。为了评估年龄、性别和BMI-SDS 对血浆蛋白质组的影响,他们进行了多元线性回归分析(图2b)。总体而言,58%的血浆蛋白与至少一个这些因素相关(40%与年龄有关,32%与性别有关,22%与BMI-SDS有关),根据当前数据集和本研究模型,8%与所有三个因素相关(图2c)。与年龄最密切相关的蛋白质包括已知的年龄相关蛋白质,如F9、RBP4和COL1A1,以及其他以前未与年龄相关的蛋白质,如GPLD1、APCS和IGFALS(图2d)。IGFALS的年龄相关性与IGFALS缺陷或低表达可能导致儿童青春期延迟的证据相符。除了单个蛋白质之外,这些数据集还揭示了儿童发育过程中发生的三个关键生物学过程。首先,他们观察到IGF1受体信号与年龄相关的增加,女性青少年的胰岛素样生长因子 1 (IGF1) 水平在12-13岁达到峰值,男性青少年的IGF1水平在14-15岁达到峰值,然后下降,与文献一致。IGFBP5反映了IGF1的表现,虽然IGFBP1和IGFBP2的水平从儿童期到青春期一直在下降。肥胖儿童的IGFBP1和IGFBP2以及脂联素持续降低。同样,SHBG、A2M和CRP都表现出肥胖依赖性水平。其次,他们发现了青春期后必需骨骼发育蛋白(ACAN、COL1A1、COL1A2、THBS4、COMP 和 POSTN)的下降,这反映了骨骼成熟过程中生长板闭合的性别差异。聚集蛋白聚糖 (ACAN) 是软骨中的主要蛋白聚糖,这种蛋白质的突变会导致早期生长停止,从而导致成年身材严重缩短。从 12-13 岁开始,女性青少年的 ACAN 水平下降了 10 倍以上,从 13-14 岁开始,男性青少年的 ACAN 水平下降了 10 倍以上,这为早期生长障碍诊断提供了潜力。第三,参与血管生成和细胞粘附的蛋白质(ANGPTL3、CDH5、ITGB1、ICAM1、VCAM1 和 ACE)表现出与年龄相关的下降。这项分析发现了一些此前与儿童肥胖无关的蛋白质,包括 A2M、PON3、ADAMTSL4、HSPG2 和 MAGEB6B,所有这些蛋白质在肥胖儿童中的水平都有所下降。
同样,他们验证了已知的蛋白质水平性别差异,例如 PZP 和 BCHE,并确定了以前没有报告过的性别特异性差异的蛋白质,包括 CD5L(图2e)。值得注意的是,CD5L 和 IGHM 成为与性别相关的蛋白质,这与女性 IgM 水平高于男性的观察结果一致。最近的一份报告进一步支持了这一发现,该报告显示 CD5L 是循环 IgM 的成员。
他们纳入了BMI-SDS(体重指数标准差评分)与肥胖状态之间的交互项,以评估蛋白质与BMI-SDS的关联是否在亚组之间存在差异。在240种与BMI-SDS相关的蛋白质中,163种是肥胖组特有的,32种在两组之间显示出不同的效应大小(图2c)。这表明,相似规模的一般人群会产生更少的 BMI-SDS 相关蛋白。炎症蛋白与 BMI-SDS 的关联性最强,包括 CRP、补体系统蛋白(C3、CFH、CFI)和急性期蛋白(A2M、APCS、SAA1、LBP)(图2f)。其中大多数在正常体重组中也具有统计学意义,但是效应大小较小,这表明随着 BMI-SDS 的增加,炎症蛋白水平升高并不只发生在肥胖患者中。与 BMI-SDS 相关的蛋白质包括 ANGPTL3,它在之前的研究中显示出与 BMI 和肥胖的不同关联。值得注意的是,他们观察到 PRG4 随着体重减轻而下降,这与该数据集中其与 BMI-SDS 的正相关性一致。有趣的是,PRG4 缺乏可保护小鼠免受葡萄糖不耐受和脂肪肝疾病的侵害,这表明本研究确定的蛋白质具有治疗潜力。
进一步探索年龄、性别和BMI-SDS的关系,发现有24种蛋白质在年龄和BMI-SDS之间有相互作用,18种蛋白质在性别和BMI-SDS之间有相互作用,149种蛋白质在年龄和性别之间有相互作用,包括PZP、AGT、SHBG以及上面提到的骨骼发育蛋白。血浆蛋白水平可作为成年人的“生物钟” 。他们将这一概念扩展到儿童和青少年,使用 50 种最具预测性的蛋白质(预测年龄和实际年龄之间的 Pearson's r = 0.85)在未纳入模型训练的 639 名个体的子集中准确地估计了 ±1.2 岁的年龄(图2g-h)。同样,一组 50 种蛋白质一致地指示了 BMI(图2i)。年龄预测蛋白主要调节 IGF1 受体信号传导、软骨和骨骼发育、成纤维细胞生长因子反应和细胞与细胞粘附。值得注意的是,单独使用排名前五到十的蛋白质就可以几乎同样好地预测年龄。BMI 预测蛋白包括已确定的肥胖标志物和肥胖相关蛋白,包括脂联素、CRP、IGFBP1、IGFBP2、PRG4、SHBG、载脂蛋白(APOA4、APOF)和炎症反应蛋白(A2M、APCS、LBP、HSPG2、HP、AOC3、ITGB1、VNN1)。

图2. 与年龄相关、与性别相关和与 BMI-SDS 相关的血浆蛋白。
(a) 已鉴定蛋白质所参与的生物过程。(b) 使用各种因素对蛋白质水平进行线性建模的示意图。(c) 与年龄、性别、BMI-SDS 以及肥胖状态与 BMI-SDS 之间的相互作用项相关的蛋白质数量。(d-f) 火山图显示与年龄、性别和 BMI-SDS相关的蛋白质,突出显示密切相关的蛋白质。(g) 使用血浆蛋白质组对年龄和 BMI 进行线性建模的示意图。(h-i) 在测试集中预测年龄和 BMI。显示了预测值和实际值之间的 Pearson 相关系数。
03
SNP 对血浆蛋白质组的影响
他们分析了 1909 人中 520 万个 SNP 与 1216 种蛋白质血浆水平的关联性,将蛋白质的主要数量性状基因座 (pQTL) 定义为蛋白质编码基因 ±1 Mb 范围内连锁不平衡中最显著的变异。他们采用了传统的全基因组关联研究(GWAS)显著性阈值P < 5 × 10 −8,确定了 443 种蛋白质的 1947 个主要 pQTL(图3a-b)。近似条件分析显示 443 种蛋白质的 733 个条件独立 pQTL。这些 pQTL 主要位于非编码区,只有 3% 代表错义,1% 代表同义变异(图3c)。在已鉴定的pQTL 中,非编码变异占主导地位,与之前研究报道的 86% 和 98% 相一致。
遗传变异通常会影响整个蛋白质的表达水平。因此,识别相同蛋白质的所有肽通常应在基因型之间显示相同的变化。肽水平分析表明,77% 的已报道 pQTL 至少有两种支持肽(supporting peptides)(图3d)。值得注意的是,在 94% 的这些情况下,所有肽都表现出相同的作用方向,表明肽水平上的定量信息高度一致。肽水平数据还有助于定量受氨基酸取代影响的蛋白质变体,这是基于亲和力的蛋白质组学的局限性,rs9898对富含组氨酸的糖蛋白丰度的影响证明了这一点。他们确定了rs9898与循环组氨酸富集糖蛋白水平之间的关联,该关联在儿童和成人队列中均成功复制,蛋白质序列覆盖率为 62%,有 26 个支持肽。重要的是,蛋白质定量不受错义突变(Pro204Ser)的影响,该突变未曾识别,可能是因为它只会产生四个氨基酸序列(NCPR),但如果有,那将是一个异常值。
值得注意的是,62% 的已发现 pQTL 为顺式,60% 的蛋白质至少有一个顺式pQTL 相关,这意味着存在普遍的局部调控(图3e-f)。基于 MS 的蛋白质组学数据重现了同一基因组位点可以调控多个蛋白质,并且一个蛋白质可以由多个基因组位点调控。具体而言,25% 的 pQTL 与一个以上的蛋白质相关,而 64% 的蛋白质有多个与之相关的 pQTL,其中 26% 的 pQTL 位于不同的染色体上(图3g-h)。他们推断,血浆蛋白丰度越高,识别肽的数量和信号就越高,从而增加了发现遗传关联的可能性。事实上,随着丰度的增加,具有遗传关联的蛋白质的比例也会增加,这种模式也体现在技术可重复性和质量控制后每个蛋白质的肽数增加上(图3i-k)。

图3. pQTL 的特征。
(a) 基因组中的初级 pQTL。(b) 针对编码蛋白质靶标基因的转录起始位点位置的初级 pQTL。(c) 变体注释。(d) 基于肽水平证据的 pQTL 分类。(e) 顺式-pQTL 和反式-pQTL的数量。(f) 仅与顺式、仅与反式以及顺式和反式pQTL同时相关的蛋白质数量。(g) 每个 SNP 相关蛋白质数量分布。(h) 每个蛋白质相关 SNP 数量分布。(i-k) 根据技术变异、中位丰度和每个蛋白质质量控制后鉴定的肽数量将蛋白质分层时具有遗传关联的蛋白质比例。
04
血浆蛋白水平方差分解
确定 pQTL 的质量后,他们进行了方差分解,以了解遗传变异和人口统计学因素对血浆蛋白水平的相对贡献。结果表明,独立的 pQTL 解释了蛋白质水平变异的 1% 至 66%(平均 11%),对于 63% 的蛋白质,pQTL 贡献的变异比年龄、性别、BMI-SDS 和肥胖的总和还要大(图4a)。然而,一些蛋白质主要受其他因素的影响:SHBG 受年龄和肥胖的影响;PRG4 受肥胖的影响;IGF1 和 RBP4 受年龄的影响。
为了解决遗传影响在儿童发育过程中有多稳定这一重要问题,他们将该群体分为 5-9 岁、10-14 岁和 15-20 岁。结果显示遗传影响具有显著的稳定性,Pearson相关性在 0.95 和 0.98 之间(图4b-d)。

图4. 各种因素解释的血浆蛋白水平的变化。
(a) 由条件独立 pQTL、年龄、性别、肥胖和 BMI-SDS 解释的方差比例。(b-d) 三个年龄组中独立 pQTL 解释的方差的成对比较,还显示了Pearson相关系数。
05
pQTL 效应大小的表征
接下来,他们使用从关联检验和基于标准化之前的数据计算的等位基因倍数变化得出的 beta 统计数据来研究效应大小。MST1、PROCR、BST1、IL1RAP、APOE 和 LPA 等蛋白质的较大效应大小可能对临床和生物标志物研究具有重要意义(图5a-f)。值得注意的是,rs2232613-T 错义突变使 LBP 水平降低了四倍。鉴于这种蛋白质在先天免疫中的重要作用,他们推测具有突变形式的个体的免疫力受损,这确实已有报道。观察到的显著遗传效应强调了在解释临床和生物标志物研究结果时考虑 pQTL 信息的重要性,特别是对于受遗传变异强烈影响的蛋白质。
此外,他们利用来自 267 种蛋白质的顶级顺式-pQTL 对 47 个心脏代谢 GWAS 结果进行了系统的双样本孟德尔随机化,包括肥胖、糖尿病、动脉粥样硬化性心血管疾病、代谢功能障碍相关脂肪性肝炎、阿尔茨海默病和慢性肾病。该分析报告了与这六种高发疾病相关的 106 种蛋白质和 36 种性状之间的 345 种因果关系。其中,41 个基因和 33 个性状之间的 101 个(29%)因果关系通过共定位进一步验证(图5g-h)。有趣的是,这些数据将 SHH 与身高联系起来,这可能与其在胚胎发育中的关键作用有关。这些结果说明了将高置信度 pQTL 与 GWAS 结果相结合如何有助于理解变异-疾病和变异-性状关联之间的分子机制。

图5. 具有已知变异-性状关联的 pQTL 的效应大小和整合。
(a-f) 全基因组关联分析中绝对 beta 值最高的六种蛋白质的强度值分布。(g) 维恩图显示在共定位分析和双样本孟德尔随机化 (MR) 中显著的蛋白质-结果对的数量。(h) 共定位且有支持 MR 因果关系的证据的蛋白质-性状对。
06
儿童和成人中高度复制的 pQTL
他们分别评估了 1000 名儿童和青少年以及 558 名成年人的 pQTL 复制率。由于对蛋白质组学和基因组学数据进行了独立的质量控制,大约 90%的 pQTL 符合复制条件。其中,他们成功复制了儿童中 97%的 pQTL(99%的顺式、92%的反式和 92%的新型),在成人中 91%的 pQTL(92%的顺式、88%的反式和 90%的新型),且具有名义显著性(P <0.05)。成年人的高复制率表明绝大多数检测到的 pQTL 不是生命阶段特异性的。要检测这种潜在的 pQTL 可能需要具有相似规模和健康状况的更大队列。此外,发现队列和复制队列之间的效应方向和大小一致(图6a-b),在复制队列的 pQTL 中观察到更大的效应(图6c)。
接下来,他们探究 pQTL 信息是否可以改善生物标志物的性能,这基于他们之前报道的肝纤维化、炎症和脂肪变性的生物标志物。对于这些生物标志物中的一半,包括表现出最大遗传效应大小的 TGFBI 和 LBP,他们鉴定并复制了 pQTL(图6d-e)。这些数据显示,在疾病组和对照组中,TGFBI 蛋白水平都根据其相应的 pQTL 而变化(图6f)。结合基因型信息进一步提高了使用 TGFBI 对纤维化阶段 F0–F1 与 F2–F4 患者进行分类的准确性。同样,他们观察到与rs2232613变异相关的 LBP 水平显著下降(图6g)。这些发现表明,应该将 pQTL 整合到生物标志物研究中,特别是对于具有强遗传效应的蛋白质,尽管应该单独评估它们对分类性能的影响。

图6. 儿童和成人中 pQTL 的复制。
(a) 儿童复制队列中复制的 pQTL 的 beta 系数相关性。(b) 成人队列中复制的 pQTL 的 beta 系数相关性。(c) pQTL 的绝对 beta 系数分布。(d) 发现队列(上图)和成人复制队列(下图)中 SNP 与血浆 TGFBI 水平之间的关联曼哈顿图。(e) 发现队列(上图)和成人复制队列(下图)中 SNP 与血浆 LBP 水平之间的关联曼哈顿图。(f) 成人复制队列中按其相关变异的基因型和纤维化阶段分层的 TGFBI 血浆水平分布。(g) 按成人复制队列中相关变异的基因型和脂肪变性阶段分层的 LBP 血浆水平分布。
+ + + + + + + + + + +
结 论
本文表明,遗传变异、年龄、性别和体重指数显著影响这种变异。本研究使用基于质谱的简化和高度定量的蛋白质组学工作流程,分析了 2147 名儿童和青少年的血浆,鉴定了 1216 种蛋白质。值得注意的是,其中 70% 的水平与上述至少一个因素有关,蛋白质水平也具有预测作用。QTL调控至少三分之一的蛋白质;从几个百分点到高达 30 倍,这表明遗传因素对血浆蛋白水平有显著影响,从儿童期一直持续到成年期。通过孟德尔随机化和共定位分析,本研究确定了 33 种心脏代谢特征的 41 个致病基因,强调了蛋白质 QTL 在药物靶标识别和疾病理解中的价值。
+ + + + +
