文献解读|Nat Commun(16.6):基于蛋白质的个体化预后模型对甲状腺乳头状癌儿童患者进行分层
✦ +
+
论文ID
原名:An individualized protein-based prognostic model to stratify pediatric patients with papillary thyroid carcinoma
译名:基于蛋白质的个体化预后模型对甲状腺乳头状癌儿童患者进行分层
期刊:Nature Communications
影响因子:16.6
发表时间:2024.04.26
DOI号:10.1038/s41467-024-47926-w
背 景
甲状腺乳头状癌(PTC)是儿童和青少年最常见的内分泌恶性肿瘤之一,发病率每年以4.4%的速度增加。约1.8%的甲状腺癌发生于儿童和青少年,其中90%以上为PTC。儿童甲状腺乳头状癌(PPTC)表现出高度的肿瘤间异质性,目前缺乏广泛采用的复发风险分层标准。
实验设计

结 果
01
研究人群的临床特征
本项研究招募了85名PPTC患者(PM)和83名良性结节(PB)儿童患者(图 1a-b)。PM 组和 PB 组的年龄分别为 15.9 ± 1.9 岁。所有患者均因颈部肿块入院,PM组肿瘤平均大小为2.4±1.3 cm,小于PB组3.8±1.3 cm。 PM组的中位随访时间为71个月,期间没有死亡报告。一名患者术前发现肺转移,放射性碘(RAI)治疗后无变化。

图1. 研究概述。
(a) 分析队列和实验流程的研究设计。(b) 儿童甲状腺乳头状癌(PTC)、儿童良性结节和成人PTC患者的入组和排除标准。
02
三个临床特征是PPTC复发的危险因素
为了确定研究队列中的临床复发风险因素,他们为 PM 患者收集的 11 种临床特征中的每一种建立了单变量 Cox 比例风险 (CoxPH) 模型,根据每个重要因素将 PM 患者分为两组。进一步分析显示,这三个特征[年龄、总淋巴结转移数(TLNN)、淋巴结转移数(LLNN)]的两组 Kaplan-Meier 生存曲线之间存在显著差异(图 2a),表明年龄、TLNN 和 LLNN 可能是儿童患者复发的危险因素。
为了确定年龄变量的形式,接下来将11个临床特征作为多变量CoxPH模型的输入(Input)。特别地,他们将年龄输入为连续整数或分类变量。森林图显示了11个临床特征的风险比(HR),表明每个特征对PPTC复发的积极或消极影响。当使用年龄作为分类变量时,整体P值(log-rank)、Akaike信息准则(AIC)和一致性指数(c -Index)表现优于其他分类变量(图2b-c)。因此,他们将年龄确定为下游分析的分类变量。

图2. 儿童甲状腺乳头状癌临床复发危险因素分析。
(a) 两组的 Kaplan-Meier 生存曲线。(b-c) 分别使用连续非负整数年龄和分类年龄的两个多元 CoxPH 模型的森林图。
03
儿童恶性、儿童良性和成人恶性甲状腺结节的蛋白质组差异
为了进一步探讨 PM 和 PB/AM 之间的差异,他们确定了失调的蛋白质并生成了两个火山图,显示了 243 个(PM 与 PB)和 121 个(PM 与 AM)差异表达蛋白(DEP)(图 3a-b)。PM 与 AM 和 PM 与 PB 中共上调/下调了 27 个蛋白质(图 3c)。此外,热图中显示了 37 个选定蛋白质的表达,这些蛋白质来自两对配对比较中的共失调蛋白质和前 5 个上调和下调蛋白质(图 3d)。根据使用STRING数据库对注释关键词进行的富集分析,与其他两组相比,PM中上调最多的蛋白质涉及MHC-II和免疫调控。这些结果表明,PPTC 具有不同于儿童良性结节和成人 PTC 的独特蛋白表达。
PM和PB组中富含1.5 FC的DEP的功能和途径几乎都与免疫系统调节有关:主要与T细胞和自然杀伤(NK)细胞有关的功能(图 3 e-f)。然后,PM与AM组的比较进一步显示小儿甲状腺癌与炎症或免疫相关通路的调节有关(图 3g)。这些结果表明 PPTC 的发生与免疫系统功能的改变有关。

图3. 失调蛋白的功能分析。
(a-b) 差异表达蛋白 (DEP) 显示在火山图中。 (c) 散点图显示了两对比较中失调蛋白的 FC 分布。(d) 热图显示了 37 种蛋白质:它们是共同上调/共同下调的蛋白质以及火山图中上调/下调最多的 5 个蛋白质。(e) 火山图中 243 个 DEP 的通路富集。(f) 使用 PM/PB 中的 DEP 进行生物过程的GO富集分析。(g) 火山图中 121 个 DEP 的通路富集与 PM/AM 比较。
04
小儿甲状腺结节的免疫浸润及免疫检查点表达水平
由于多种失调的免疫相关通路和生物过程发生富集,他们进一步使用“硅流式细胞方法”CIBERSORTx对儿童样本中的免疫浸润进行了分析。他们鉴定了7种类型的免疫细胞,以及它们的相对比例(图4a)。CD8+ T细胞、巨噬细胞、树突状细胞和Treg细胞的含量差异显著。PM样品中CD8+ T细胞和巨噬细胞增加,树突状细胞和Treg细胞减少。为了验证硅分析的免疫浸润结果,他们对CD4+和CD8+ T细胞进行了免疫荧光染色,分别标记CD3+ /CD4+和CD3+ /CD8+,获得了PM中CD8+ T细胞富集和CD4+ T细胞减少的代表性染色图像(图4b)。为了进一步探索肿瘤免疫微环境,他们比较了 PB 与无复发性 PM (PM-NR) 以及 PM-NR 与复发性 PM (PM-R) 之间的免疫检查点蛋白丰度。在蛋白质组数据量化的 31 个免疫检查点中,脊髓灰质炎病毒受体 (PVR) 和白细胞介素 10 受体 B (IL10RB) 在最具侵袭性的 PM-R 组中的水平显著较低(图 4c)。在 PB、PM-NR 和 PM-R 组中,没有发现免疫检查点蛋白随着恶性肿瘤的增加而上调。

图4. 计算机免疫浸润分析和免疫检查点的表达水平。
(a) 由 CIBERSORTx 估算的儿科良性(PB)和儿科恶性(PM)样本中七种类型免疫细胞的相对比例。 (b)代表性多重免疫组织化学染色。 (c) PB组、PM-NR组(未复发)和PM-R组(复发)脊髓灰质炎病毒受体(PVR)和白细胞介素10受体B (IL10RB)的蛋白表达丰度。
05
PPTC预后预测模型和个体化预后分层的开发
为了预测 PM 组患者的 PTC 复发风险,他们将 PM 样本随机分为训练集和独立测试集。然后,他们基于两种算法(Cox 比例风险模型和随机生存森林)和两种类型的特征(临床特征和蛋白质)开发了五个模型。具体来说,他们开发了以下模型:两个基于临床特征(CliCox)或蛋白质特征(ProtCox)的Cox比例风险模型;基于临床特征 (CliRsf)、蛋白质特征 (ProtRsf) 或临床和蛋白质特征 (CliProtRsf) 的三个随机生存森林。
ProtRsf 模型是表现最好的模型,因为它实现了最高的 C 指数值:在训练集、交叉验证集和独立测试集上分别为 99.62%、96.86% 和 84.95%(图 5a)。值得注意的是,CliProtRsf 使用的特征组合仅包含 21 个蛋白质,没有任何临床特征,这意味着当蛋白质特征存在时,临床特征对模型的预测没有显著贡献。临床特征甚至干扰蛋白质特征;因此,需要更多的蛋白质来补偿这种影响。然而,即使为模型选择了更多的蛋白质特征,CliProtRsf 在 C 指数方面也没有优于 ProtRsf(包含 19 个蛋白质)。因此,他们选择 ProtRsf 模型进行下游分析。使用训练集,他们根据复发和非复发患者的风险评分确定风险分层阈值(图5b)。因此,根据该阈值将PM患者分为高风险或低风险。高风险和低风险患者的Kaplan-Meier曲线在训练集和独立测试集上存在显著差异,表明本项研究的模型具有很强的泛化能力(图 5c)。
随机生存森林算法选择了19个蛋白质作为ProtRsf模型的特征(图5d)。在这 19 种蛋白质中,有 5 种已在甲状腺癌研究中报道,包括半乳糖凝集素-3 (LGALS3) 、嗜铬粒蛋白-A (CHGA) 、胶原蛋白 α-3(VI) 链 (COL6A3) 、胶原蛋白 α-1( XXIII)链(COL23A1) 和整联蛋白α-4(ITGA4) 。此外,肌纤蛋白 (MYOC) 与甲状腺功能有关。其余 13 种蛋白质尚未报道与甲状腺疾病相关。
网络分析表明,19 个蛋白质特征中有 13 个是直接或间接相关的。特别是,中心蛋白LGALS3可能在儿童甲状腺癌中发挥重要作用(图 5e)。他们分析了LGALS3在四组(PB、PM低危、PM高风险和AM)中的蛋白丰度(图5f)。LGALS3在PB组中表达最低,与其他组相比差异有统计学意义。其表达量在PM高危组中最高。这些结果表明,LGALS3的高表达可能与更高的复发风险相关。此外,我们对转录调控因子进行了预测,发现有4个转录调控因子富集,P < 0.01。其中,甾醇调节元件结合转录因子1 (SREBF1)是一种与甲状腺癌预后相关的蛋白。

图5. 小儿甲状腺乳头状癌 (PPTC) 预后预测。
(a) 五个模型的 C 指数是根据训练、三重交叉验证和测试集计算的。 (b) 两组训练连续风险排名(Crank)得分的密度曲线。(c) 根据训练集和测试集计算得出的低风险组和高风险组的 Kaplan-Meier 生存曲线显示出显著差异。 (d) ProtRsf 模型中 19 种蛋白质的排列重要性。(e) 网络分析显示 ProtRsf 模型的 19 个特征,以及使用 Ingenuity Pathway Analysis 软件富集的连接蛋白。(f) 四组中半乳糖凝集素 3 (LGALS3)相对蛋白丰度。
06
19-蛋白质模型的整体和个性化表现
接下来,他们评估了 ProtRsf 模型将 PPTC 患者分为高复发风险组或低复发风险组的功效。该模型能够正确预测85例PM患者中的75例的预后,准确率达到88.24%(图 6a)。然而,有 10 名患者错误分类:两名为假阴性,八名为假阳性(图6b)。
他们仔细分析了十个错误的预测。这两个假阴性事件对应于复发但由模型归类为低风险组的患者。然而,它们在104个月和116个月后检测到复发,这比中位随访时间(71个月)长得多(图 6b)。对于假阳性患者,随访时间(14、17、17、25、30、48、64和67个月)均短于中位随访时间(71个月)(图 6c) 。这些患者在他们开始这项研究时只进行了短期随访,这意味着他们将来可能会复发。

图6. 风险分层。
(a) 儿童甲状腺乳头状癌 (PPTC) 患者的预测风险分层。 (b-c) 预测生存曲线及其连续风险排序 (Crank) 评分、样本指数和复发或最近随访时间。
+ + + + + + + + + + +
结 论
本项研究回顾性收集和评估了 83 个PB、85 个PM和 66 个AM结节的临床因素和蛋白质组,并通过质谱法定量了 10426 个蛋白质。 PM 与 PB 和 PM 与 AM 中分别有 243 个和 121 个显著失调的蛋白质。功能和通路分析显示,与其他患者相比,PM 患者炎症和免疫系统的激活增强。使用机器学习模型选择 19 种蛋白质来预测复发,准确率为 88.24%。本项研究生成了基于蛋白质的个性化预后预测模型,可以将PPTC患者分为高复发风险组或低复发风险组,为临床决策和个体化治疗提供参考。
+ + + + +
