文献解读|Cell(45.5):人类蛋白质组分布图谱,用于组织特异性血浆蛋白质组动力学
✦ +
+
论文ID
原名:Human proteome distribution atlas for tissue-specific plasma proteome dynamics
译名:人类蛋白质组分布图谱,用于组织特异性血浆蛋白质组动力学
期刊:Cell
影响因子:45.5
发表时间:2025.04.08
DOI号:10.1016/j.cell.2025.03.013
背 景
组织会产生组织特异性的蛋白质组,包括组织富集的蛋白质和在许多不同细胞和组织中普遍产生的蛋白质。这些蛋白质组协调着不同器官和器官系统中执行的组织特异性功能和基本细胞功能。与组织和细胞不同,血浆中没有蛋白质合成。血浆蛋白质组由周围器官和细胞中蛋白质的流入和流出维持。为了定量不同器官和细胞在健康和患病状态下对血浆蛋白质组的影响程度,研究团队开发了一种基于质谱的蛋白质组学平台,以推断人体血浆中检测到的蛋白质的组织来源。
实验设计

结 果
01
构建以血浆为中心的组织和细胞分布图谱
研究团队收集了 18 种健康组织,并从每个器官和细胞类型的三个或更多个体中分离出 8 种细胞类型,以研究是否可以通过深入分析组织和细胞蛋白质组来推断血浆中可检测到的蛋白质的来源(图 1 A)。根据影响血浆蛋白质组的可能性来选择器官和细胞,包括所有主要的血管器官和血液中最丰富的细胞类型。组织活检样本采集自局部疾病、健康志愿者的健康组织,或在预防性或重建手术期间采集。使用细胞特异性分离方案从健康志愿者的血液样本中分离细胞,使用流式细胞分析检测细胞纯度。所有样品均经预处理后进行质谱 (MS) 分析,然后进行离线分级分离。分级分离的样品采用数据依赖性采集质谱 (DDA-MS) 进行分析,此外,未分级分离的样品采用数据非依赖性采集质谱 (DIA-MS) 进行分析。所有 MS 数据均根据人类蛋白质组进行检索,并将结果数据整合到一个涵盖 10786 种蛋白质的谱图库中。为了进行定量分析,他们使用生成的谱图库对 DIA-MS 数据进行分析,以评估蛋白质丰度(图 1 B)。最终,共对 9827 种独特蛋白质进行了定量分析,错误发现率为 1%。
公开的研究已经观察到许多蛋白质在几种组织中产生,但是数量不同,这使得对蛋白质-组织关联进行分类具有挑战性。为了客观地对蛋白质-组织关联进行分类,他们首先使用均匀流形近似和投影(UMAP)将组织中鉴定的蛋白质投影到二维潜在空间中。接下来,他们使用加权高斯核密度估计(KDE)分析信号密度以构建500×500像素的图像,其中单独的通道代表每个器官(图1C)。然后缩放每个像素的强度,并根据每个器官的信号贡献将各个像素分类为单个组织,多个组织以及常见组织。相同的策略也应用于细胞蛋白质。超过90.5%的已鉴定蛋白质在图谱之间是共有的,表明细胞和组织蛋白质组之间存在相当大的重叠。利用此策略,他们将 5108 和 4396 种蛋白质归类为单标记组织或细胞富集蛋白质。此外,他们将 1290 和 2195 种蛋白质鉴定为多标记组织或细胞蛋白质。最终,他们将 3390 和 2351 种蛋白质归类为常见蛋白质,因为它们在多个细胞和组织中显示出相似的丰度谱。通过这种方式,可以将在所分析器官中具有相似丰度谱的蛋白质分配到相应的细胞或组织(图1D)。
为了评估标签分配的准确性,他们对具有相同组织分配的蛋白质进行了功能富集分析。细胞和器官标签在与各自器官功能相匹配的生物学功能中富集,例如在心脏或肌肉中富集的收缩蛋白、肝脏中的药物代谢(细胞色素 P450 酶)和大脑中的蛋白质相关突触信号传导(图1 E)。此外,该策略使他们能够鉴定出几种具有已知组织关联的组织富集蛋白,例如心脏肌钙蛋白、胰淀粉酶和肺表面活性物质相关蛋白。

图1. 样品概要及实验策略。
(A) 从每个器官和细胞类型至少三个个体中收集或分离预测很可能影响血浆蛋白质组的器官和细胞。(B) MS 实验设计示意图。(C) 组织或细胞标签分配策略的示意图。(D-E) HATLAS 蛋白质组图谱中所有已鉴定蛋白质的 UMAP 结果,其中突出显示了蛋白质-组织关联。
02
人类蛋白质组的整体分布图谱
为了在多个图谱中创建更深入的蛋白质分布共识图谱,他们检索了公开发布的RNA和蛋白质图谱的原始数据,并将其与本研究的细胞和组织蛋白质组图谱整合。整合后的图谱包含4个组织图谱(2个蛋白质图谱和2个RNA图谱)和2个细胞图谱(1个蛋白质图谱和1个RNA图谱),共包含21种不同组织和8种血细胞的18388个转录本和12846个蛋白质。这六个图谱在此分别称为HATLAS组织图谱、HATLAS细胞图谱(本研究的蛋白质组图谱)、EMBL组织图谱、EMBL细胞图谱、MSP图谱(蛋白质图谱)和MSR图谱(RNA图谱)。为了将组织标签分配给所有图谱,他们使用上面描述的相同 UMAP/KDE 分类策略重新分析了下载的数据。使用这种方法,每个图谱中的所有蛋白质都归类为单个组织/细胞、多个组织/细胞以及常见组织/细胞。为了整合来自每个图谱的标签信息,他们使用以下方法构建了一个整体标签得分 (GLS):只有在图谱中识别的蛋白质才会获得标签得分。因此,每种蛋白质最多可以获得六个独立的标签分配(单标签、多标签或常见标签)。每个标签都分配一个标签得分,单个和常见标签注释的权重高于多标签注释。将来自各个图谱的标签得分相加,以获得每种蛋白质的 GLS。具有最高 GLS 的组织或细胞标签可用作主要注释(图 2 A)。
GLS 范围从 0 到 4,反映了给定蛋白质-组织分配的置信度。GLS 为 4 的蛋白质分配突出显示了所有图谱都自信地且独立地标记为单个组织的蛋白质(图 2 G)。高置信度蛋白质约占总组织分配的 5%。其余 95% 的蛋白质在所有图谱中并未始终如一地分配给同一组织。相反,将它们分配给特定组织,这突出了整合多个图谱以获得可靠结果的重要性(图 2 B)。大多数情况下,低 GLS 的分析物仅在一两个图谱中得到鉴定。为了评估不同 GLS 蛋白质的组织特异性水平,他们分析了组织内每个 GLS 级别(1-4)的平均丰度,并可视化了这些蛋白质和转录本的强度在所分析组织中的分布情况(图 2 C)。此项分析表明,GLS 较低的蛋白质(1-2)主要在其各自的组织中产生。在所有组织中,与 GLS 较低的蛋白质相比,GLS 较高的蛋白质往往对其相应组织具有更高的特异性。为了举例说明,他们展示了所有组织中每个 GLS 水平的脑内富集蛋白质的平均丰度(图 2 D)。
为了探索不同 GLS 水平相关的生物学功能,他们对每个 GLS 水平的组织富集蛋白进行了功能富集分析。值得注意的是,即使是低 GLS 的蛋白质通常也会因组织特异性功能而富集,并且在高 GLS 的蛋白质组之间观察到富集通路的显著重叠(图 2 E)。这些结果表明,组织富集蛋白的丰度范围从特异性地产生于某一组织类型到富集程度较轻的蛋白质,后者更难以通过单一实验方法,使用来自同一个体的一份组织样本进行筛选。
平均而言,他们在每个器官中鉴定出 261 种组织富集蛋白。脑和肝脏的组织富集蛋白数量最多,分别为 1392 种和 788 种,而前列腺和膀胱的组织富集蛋白数量最少,分别为 59 种和 20 种。在所有细胞类型中,中性粒细胞、巨噬细胞和红细胞的细胞富集蛋白数量最多。为了直观地显示组织分配情况,他们在网络图中绘制了整体分布图谱。边表示每个图谱中的多标记蛋白质,每个节点表示由 GLS 定义的组织蛋白质(图 2 F)。
总的来说,这些结果表明,每个图谱都提供了部分重叠的组织富集蛋白质集合,并且使用多个图谱可以增强组织-蛋白质归属的可信度。使用多个图谱对蛋白质来源进行分类,可以更全面、更可靠地定义组织和细胞中的分子分布。

图2. 人类蛋白质组的整体分布图谱。
(A) 使用UMAP投影上的KDE为每个图谱(分别指HATLAS、EMBL、MSP和MSR)分配组织-蛋白质/RNA标签。(B) 条形图显示每种组织的 GLS 水平。(C) 热图描绘了组织富集蛋白质在 GLS 各个水平上的平均蛋白质丰度。(D) 各 GLS 水平的脑富集蛋白标准化强度分布。(E) 不同 GLS 水平的脑内富集蛋白质的功能富集分析。(F) 基于整体分布图谱的蛋白质-组织分配集成网络。(G)整体分布蛋白质组图谱中具有高 GLS 和组织特异性的蛋白质示例。
03
数据驱动的主要血浆蛋白定义
凝血蛋白和补体蛋白等在血浆中发挥主要功能的蛋白质主要在肝脏中产生。对于这类蛋白质(本研究称为主要血浆蛋白),可以预期肝脏中的 RNA 水平较高,但蛋白质水平较低,因为这些蛋白质在蛋白质翻译后会主动分泌到血浆中。整体分布图谱包含 RNA 和蛋白质丰度数据,使他们能够以数据驱动的方式定义主要血浆蛋白组。利用整体分布图谱,他们在 RNA 图谱中筛选出带有肝脏标签的蛋白质,并移除 GLS 较高(>3)的肝脏蛋白质,以筛选出主要在肝脏中转录但在肝脏蛋白质组中含量不高的蛋白质。对于剩余的蛋白质,他们计算了其在肝脏中的平均丰度,并将其与每个图谱中的其他组织进行比较,以评估肝脏的相对丰度比。然后,他们分析了 RNA 和蛋白质图谱之间的差异,这使他们能够鉴定出 RNA 图谱中肝脏丰度比比蛋白质图谱高 5-10000 倍的蛋白质。其中,用至少 2 种肽对来自一组健康个体14的血浆中的 126 种蛋白质进行了定量分析(图 3 A)。这些主要血浆蛋白中的典型蛋白质是凝血因子、补体蛋白、白蛋白、载脂蛋白和急性期蛋白。功能富集分析表明,这些主要血浆蛋白参与血浆的主要功能,例如补体和凝血级联、急性期反应和调节胰岛素生长因子 (IGF) 转运(图 3 B)。
由于主要血浆蛋白是主动分泌到血浆中的,而不是细胞坏死或正常周转的结果,他们推测它们比组织富集蛋白受到更严格的稳态控制。为了验证这一点,他们使用了上述健康志愿者的时间分辨血浆样本。在这个队列中,他们在 5 周内每周从 10 个个体中采集 5 个样本,并使用 DIA-MS 进行分析。根据上述定义,他们分析了所有个体和所有不同时间点的定量组织富集蛋白、共有组织蛋白和主要血浆蛋白的方差。该分析表明,不同个体之间的差异高于单个个体内的差异,表明血浆蛋白质组的个体差异随时间相对稳定(图 3C-D)。此外,与共有蛋白和组织富集蛋白相比,主要血浆蛋白的蛋白质水平方差较低,表明该蛋白质组受到更严格的稳态控制。总的来说,以数据为驱动的血浆原蛋白定义有助于更好地监测血浆中的组织来源蛋白。此外,这些结果表明,在正常生理条件下,血浆中可检测到的几种组织富集蛋白的个体间变异性高于血浆原蛋白。

图3. 基于肝脏中RNA和蛋白质水平之间的丰度来定义主要血浆蛋白的数据驱动策略。
(A) 点图显示,RNA 图谱中的 126 种蛋白质的肝脏丰度比至少比蛋白质图谱中的高 5 倍。(B) 水平条形图显示了定义的主要血浆蛋白的功能富集分析。(C-D) 散点图和小提琴图分别显示了所有个体和所有不同时间点的定量组织富集蛋白、常见组织蛋白和主要血浆蛋白的计算方差。
04
血浆中组织特异性蛋白质特征的病理变化
明确的组织富集蛋白和数据驱动的主要血浆蛋白定义为监测病理条件下血浆蛋白质组的动态变化提供了新的可能性。为了验证这一点,他们从急诊科 (ED) 的三个不同的概念验证患者队列中收集了血浆样本。这些队列包括胰腺炎患者、心肌梗死患者和不同微生物病因感染患者,以及各自的对照(图 4 A-C)。这三种情况具有不同的潜在病理生理学和完善的临床生物标志物,例如肌钙蛋白 T、淀粉酶和 C 反应蛋白 (CRP)(图 4 A-C)。使用 DIA-MS 分析血浆样本,并使用组织图谱库提取蛋白质强度以生成 161 个 DIA-MS 蛋白质组图谱。
总的来说,在胰腺炎患者血浆样本中鉴定了 35 种胰腺富集蛋白。其中,13 种蛋白质的 GLS 为 4,因此所有 4 个图谱均将其确定为胰腺。两种蛋白质的 GLS 为 3,14 种蛋白质的 GLS 为 2。与健康对照组相比,胰腺炎患者血浆中的 11 种蛋白质[包括淀粉酶 α 2A (AMY2A)、胰腺脂肪酶 (PNLIP) 和羧肽酶 B1 (CPB1)]显著升高(图 4D-E)。根据所有已鉴定的血浆蛋白对患者队列进行分层表明,整个血浆蛋白质组无法将胰腺炎患者与其各自的对照组区分开来(图 4F)。然而,以 GLS 为 4 的胰腺富集蛋白为目标,对血浆蛋白质组进行数据驱动的过滤,显著改善了胰腺炎患者和对照组之间的分离(图 4 G)。
第二组由因胸痛入住急诊科的患者组成,有的患有或不患有心肌梗死。心肌梗死组的肌钙蛋白 T 水平与基线相比升高(图 4B)。在这一组中,整体分布图谱能够识别血浆中 24 种心脏富集蛋白(图4H)。与对照组相比,心肌梗死患者血浆中肌红蛋白 (MB)、脂肪酸结合蛋白、心脏 (FAB3P) 和三部分基序蛋白 54 (TRIM54) 等五种心脏富集蛋白显著升高(图 4I)。有趣的是,MB、FAB3P 和 TRIM54 已作为心脏生物标志物。
在最终的患者队列中,他们纳入了由不同微生物引起感染的患者。先天免疫系统是抵御感染的第一道防线。中性粒细胞、巨噬细胞和血小板是先天免疫系统中的关键细胞参与者,对于协调宿主对抗入侵病原体的早期反应至关重要。为了靶向和监测细胞衍生蛋白质,他们采用基于细胞的图谱来识别在中性粒细胞、巨噬细胞和血小板中特别富集的蛋白质组(图4J)。这些蛋白质,包括抵抗素 (RETN)、组织蛋白酶 G (CTSG) 和脂质运载蛋白 2 (LCN2),在细菌感染期间的血浆丰度明显高于病毒感染期间的血浆丰度(图 4 K)。巨噬细胞衍生蛋白也观察到了类似的模式(图 4L),近 20 种巨噬细胞富集蛋白在细菌感染患者血浆中显著升高(图 4M)。相比之下,血小板衍生蛋白(图 4 N)与中性粒细胞和巨噬细胞相比,显示出不同的血浆蛋白质组丰度谱。例如,与病毒感染相比,促血小板碱性蛋白 (PPBP)、血小板因子 4 (PF4) 和糖蛋白 IX 血小板 (GP9) 在细菌感染中主要下调(图 4O)。这很可能是由于血小板减少症引起的,这种症状在脓毒症等严重细菌感染中很常见。

图4. 血浆中组织或细胞蛋白质特征的病理变化。
(A-C) 急诊科入选的胰腺炎、心肌梗死和感染患者队列及其相关临床生物标志物(淀粉酶、肌钙蛋白T和C反应蛋白)的概况。(D) 堆积条形图描绘了胰腺炎血浆队列(对照组与胰腺炎组)中八种胰腺富集蛋白的标准化蛋白质丰度。(E) 条形图显示了四种富含胰腺的蛋白质的丰度模式,与健康对照组相比,胰腺炎血浆中的蛋白质含量显著升高。(F-G) UMAP可视化。(H) 条形图显示不同组织中 5 种已鉴定的心脏富集蛋白质的平均丰度水平。(I) 条形图显示了 MI 血浆中三种富含心脏的蛋白质的丰度模式,与对照血浆相比,这些蛋白质在 MI 血浆中显著升高。(J-K) 条形图描绘了中性粒细胞中富集的蛋白质子集的平均丰度水平,以及细菌感染患者与病毒感染患者血浆中的平均丰度模式。(L-M) 条形图显示选定的巨噬细胞衍生蛋白的标准化平均丰度水平和它们在血浆中的丰度模式(病毒感染与细菌感染)。(N-O) 条形图显示了所有细胞类型中血小板中富集蛋白质的标准化平均丰度,以及它们在感染血浆队列(病毒感染相对于细菌感染)中的平均丰度水平。
05
监测人群规模血浆队列中的组织特异性蛋白质特征
为了进一步定量不同器官和细胞在健康和患病状态下对血浆蛋白质组的影响程度,他们纳入了另外两个大型血浆队列的数据——一个来自英国生物样本库的全人群队列20,另一个是大型脓毒症研究。英国生物样本库的血浆队列源自一项制药合作项目,该项目使用 Olink 蛋白质组学技术对 54219 名英国生物样本库参与者的血浆蛋白质组进行了量化。脓毒症血浆队列是一项基于多发性硬化症 (MS) 的研究,涵盖了 1364 名脓毒症患者,数据采用 DIA-MS 获取。
在本研究中包含的所有队列中,血浆中可检测到 3585 种独特蛋白质,根据基础 GLS 和蛋白质-组织分配将其分层为不同的蛋白质组(图 5 A)。其中,1364 种分配为具有单一标签的组织蛋白,约 10% 的 GLS 为 4。进一步将组织或细胞富集的蛋白质细分为各自的组织和细胞类型,结果显示所有包含的 29 个器官和细胞均对血浆蛋白质组有贡献。然而,每个器官的贡献水平明显不同。对于某些器官(例如脑、脾、肝、肌肉和胰腺),组织特异性蛋白质对血浆的贡献(数百种蛋白质)是膀胱、甲状腺和前列腺等其他器官(贡献数十种蛋白质)的许多倍(图 5 B)。他们注意到,与较小的器官相比,具有不同蛋白质组和许多组织特异性蛋白质的大型血管器官通常对血浆蛋白质组组成有更显著的影响。
英国生物样本库提供了参与者特征,包括疾病患病率和相应的蛋白质关联,使其成为检测组织特异性蛋白质组疾病特征变化的宝贵资源。为了研究器官损伤的发生是否会改变组织富集蛋白的丰度,他们选择了按其组织来源分类的与肝功能障碍(ALT 升高)和胃炎呈正相关的蛋白质(图 5C-D)。该分析显示,与其他器官衍生的蛋白质相比,128 种肝脏富集蛋白质和 10 种胃富集蛋白质与肝功能障碍和胃炎的关联分别增强了 2 倍。在脓毒症队列中,他们发现与没有呼吸功能障碍的脓毒症患者相比,患有呼吸功能障碍的脓毒症患者血浆中的肺表面活性物质 B (SFTPB)(一种高度肺特异性的蛋白质)显著增加(图 5E)。
有趣的是,在血浆中检测到的组织富集蛋白中,具有 GLS4 的蛋白质的比例与所有组织富集蛋白相比增加了 2 倍。然而,他们观察到并非所有高 GLS 的蛋白质都在血浆中检测到,这表明其他因素可能会影响哪些蛋白质在血浆中进行鉴定。为了研究这一点,他们选择了在血浆中检测到的肝脏和胃蛋白质,并将它们的比例与相应器官中的强度进行了比较(图 5F-G)。该分析表明,在血浆中鉴定的 25%–30% 的组织特异性蛋白质消耗了这些蛋白质在各自组织中约 40% 的强度。这些发现表明,在血浆中检测到的组织富集蛋白通常在其各自的器官中非常丰富,因此可能在血浆中产生更丰富的印迹,这与之前在动物模型中所做的观察一致。

图5. 血浆中组织富集蛋白的分布图。
(A) 环形饼图显示了血浆中所有已识别的蛋白质以及根据全局分布图谱分配的全局蛋白质组的百分比分布。(B) 圆形条形图描绘了血浆中鉴定出的组织富集蛋白,并按其所属组织和 GLS 进行细分。(C-D) 点图显示组织富集蛋白及其与肝功能障碍和胃炎的蛋白质关联(效应大小)。(E) 点图显示呼吸功能障碍的脓毒症患者(SOFA 呼吸评分 > 2)与无呼吸功能障碍的脓毒症患者(SOFA 呼吸评分 = 0)的血浆蛋白质肺表面活性物质 B 水平。(F) 首先筛选出所有在血浆中检测到的、在肝脏和胃中富集的蛋白质。条形图比较了两份图谱(HATLAS 和 EMBL)中蛋白质比例与其在相应器官中的强度比例。(G) 富集字符串网络图,其中包含 (C) 中标记为“肝脏”的蛋白质。
+ + + + + + + + + + +
结 论
本研究首先构建了一个广泛的人类蛋白质组图谱,涵盖18个血管化器官和血液中最丰富的8种细胞类型。该图谱与之前的RNA和蛋白质图谱相结合,客观地定义了蛋白质组范围内的蛋白质-器官关联,从而推断其来源,并实现了血浆中器官特异性蛋白质的可重复定量。本研究证明该图谱可以确定六个独立患者队列中器官富集蛋白质组的疾病特异性定量变化,包括脓毒症、胰腺炎和心肌损伤。该策略可以扩展到其他疾病,以加深对血浆蛋白质组动态变化过程的理解。
+ + + + +
