文献解读|Nat Commun(16.6):用于胃癌诊断和预后的代谢组学机器学习预测器
✦ +
+
论文ID
原名:Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer
译名:用于胃癌诊断和预后的代谢组学机器学习预测器
期刊:Nature Communications
影响因子:16.6
发表时间:2024.02.23
DOI号:10.1038/s41467-024-46043-y
背 景
胃癌(GC)是全球癌症相关死亡率的一个重大负担,这凸显了迫切需要制定早期检测策略和精确的术后干预措施。然而,用于早期诊断和患者风险分层的非侵入性生物标志物的识别仍未得到充分探索。
实验设计
结 果
01
患者、数据收集和研究设计
研究团队共从702个人中获得了血浆样本,其中包括389例GC患者和313例非GC(NGC)患者(图1,图S1a-d)。接下来,使用基于液相色谱-质谱联用技术(LC-MS)的靶向液体代谢组学方法获得血浆样品的代谢组学特征。总共检测到147种代谢物,包括氨基酸、有机酸、核苷酸、核苷、维生素、酰基肉碱、胺和碳水化合物(图S1e)。然后比较队列1中GC和NGC的代谢景观,并使用机器学习算法研究代谢特征与临床表型之间的关系。
他们建立了一个GC诊断模型,命名为10-DM模型,并评估了模型在区分GC患者和NGC患者方面的性能。此外,采用外部测试集2(队列2)来验证模型的稳健性。除了诊断模型外,他们还利用机器学习分析181例胃癌患者(队列3)的代谢组学数据,进一步构建了预后模型(28-PM模型)。他们还将模型性能与利用临床适应症的传统方法进行基准比较,并评估了模型的风险分层能力。
图1. 研究设计概述
图S1. 受试者招募和代谢物组成。
(a-d) 队列1-3受试者的临床特征。(e) 研究中检测到的代谢物的种类和比例。
02
胃癌患者血浆代谢格局的重编程
为了表征 GC 的血浆代谢重编程,他们对 GC 患者与 NGC 进行了代谢组学分析。具体来说,主成分分析(PCA)将GC与NGC样本区分开来,表明GC代谢组经历了重塑(图 2a)。与 NGC 相比,GC 中总共有 45 种代谢物存在统计学差异(图2b,图S2a-b)。有趣的是,随着疾病进展,这些失调的代谢物显示出 3 个明显不同的趋势(聚类 1-3)(图2c,图2c-e)。特别是,随着癌症的发生和进展,聚类 1 中的代谢物(例如新蝶呤和 N(7)-甲基鸟苷)表现出持续增加的趋势,而聚类 2 中的代谢物[例如谷胱甘肽二硫化物 (GSSG)、尿苷和乳酸]则呈现出持续下降的趋势(图2c,图S2c-d)。此外,这些差异代谢物的KEGG途径富集分析揭示了一系列受到干扰的代谢途径(图 2d)。谷胱甘肽代谢是胃癌中最显著的紊乱途径,它在细胞抗氧化系统、活性氧管理和抗癌治疗中具有重要作用。谷胱甘肽代谢中的两种关键代谢物GSH和GSSG在GC血浆中显著降低(图S2a-b)。然而,GSH/GSSG比率,已确定为紊乱的氧化应激的指标,在胃癌患者中显著上调,并随着疾病进展而增加(图S2a)。综上所述,数据显示GC患者的氧化应激严重失调。
此外,半胱氨酸和蛋氨酸代谢在胃癌患者的代谢途径中也受到强烈干扰,据报道,这些代谢途径在肿瘤发生过程中影响氧化应激,介导细胞信号传导,促进表观遗传调控。此外,与NGC对照组相比,GC患者的S-腺苷-L-同型半胱氨酸(SAH)水平下调,S-腺苷-L-同型半胱氨酸(SAM)水平上调,SAM/SAH比值随疾病进展呈上升趋势(图S2a-b)。作为一种通用的甲基供体,SAM丰度的改变导致表观遗传变化,调控基因表达,支持细胞增殖和生长。因此,SAM/SAH比例的失调可能反映了GC患者甲基含量的扰动。
总之,这些研究结果描述了代谢脆弱性和血浆代谢物在GC检测和预测中的潜在应用。
图2. GC患者的重编程血浆代谢景观与非GC对照组的比较。
(a) 队列1 血浆靶向代谢组学数据的主成分分析(PCA)。(b) 队列1血浆代谢组学中检测到的代谢物的火山图。(c) 根据代谢变化的相似性,使用差异代谢物对 GC 进展期间的代谢轨迹进行 Mfuzz 聚类。(d) KEGG代谢途径富集了 GC 患者和 NGC 对照之间显著差异的代谢物。
图S2. 胃癌患者与对照组代谢组学分析。
(a)队列1中GC和NGC之间代谢物差异的热图。(b) GC和NGC的代谢物差异。(c-e) 聚类1-3代谢物的动态变化。
03
来自机器学习的生物标志物组可实现 GC 患者的早期诊断
接下来,他们利用获得的重新编程的代谢谱来开发创新的癌症诊断方法。本研究使用机器学习来开发预测临床状态的模型。使用LASSO回归算法,他们选择了10种必需代谢物来区分GC和NGC(图 3a),包括琥珀酸,尿苷,乳酸,SAM,焦谷氨酸,2-氨基辛酸,新蝶呤,N -乙酰基-D-葡萄糖胺 6-磷酸 (GlcNAc6p)、血清素和烟酰胺单核苷酸 (NMN)。接下来,他们训练了具有 10 个基本特征的随机森林模型,然后在测试集 1 中验证了该模型,得到了 0.967 的接收者操作特征 (AUROC) 下的面积(95% 置信区间 (CI):0.944-0.987 ,灵敏度:0.854,特异性:0.926)(图 3b)。此外,每种代谢物对该 10 代谢物诊断模型(10-DM 模型)的贡献相对均匀,其中琥珀酸盐、尿苷和乳酸盐是三种最重要的贡献代谢物(图 3c)。在 GC 肿瘤组织中检测到尿苷水平的显著变化。同样,肿瘤发生和进展过程中的相对丰度图表明,所有这十种代谢物在 GC 和 NGC 之间均存在显著差异,其中 5 种(SAM、新蝶呤、GlcNAc6p、血清素和 NMN)在 GC 和 NGC 中显著上调,其他五种(琥珀酸、尿苷、乳酸、焦谷氨酸和2-氨基辛酸)在GC中显著下调(图S3a)。
为了直观地展示模型的性能,他们生成了将每个参与者的预测值与其实际疾病状态 (NGC/GC) 进行比较的图。10-DM 模型准确识别了测试集 1 中 85.4% 的 GC 患者和测试集 2 中 90.3% 的 GC 患者(图 3d-e)。在临床实践中,GC的早期发现对于及时临床干预和根治性切除至关重要,可以显著提高肿瘤患者的生存率。为了进一步评估本项研究的模型在诊断早期 GC 方面的有效性,他们应用 10-DM 模型来区分测试集 1 中的 IA/IB 期 GC 和 NGC。该模型对IA期患者的预测准确率为90.9% (AUROC: 0.957, 95% Cl: 0.917-0.990,灵敏度:0.813,特异性:0.926),对IB期患者的预测准确率为0.927 (AUROC: 0.984, 95% Cl: 0.947-1.000,灵敏度:1,特异性:0.926),表明该模型在筛查早期患者方面具有较强的鉴别能力(图3f)。此外,在外部测试集2(队列2)中,该模型的AUROC为0.920(灵敏度:0.905,特异性:0.75)。测试集2中83.6%的早期(I期和II期)患者由10-DM模型正确识别(灵敏度:0.931,特异性:0.75)(图3g),10-DM模型对IA期患者的检测准确度为79.1% (AUROC: 0.909, 95% Cl: 0.838 ~ 0.975,灵敏度:0.909,特异度:0.75),表明其具有较高的灵敏度和可靠性(图S3b)。
图3. 基于血浆代谢组的机器学习预测模型,用于 GC 诊断。
(a) 建模流程的设计。 (b) 测试集1中诊断GC患者的受试者工作特征(ROC)曲线。 (c) 10种代谢物对10-DM模型的贡献。 (d-g) 10-DM 模型的预测性能。
图S3. 10-DM模型的代谢物分布和性能评价。
(a) 在队列1中使用相对丰度的建模代谢物的小提琴图。(b) 在测试集1和2中,10-DM模型区分II/III/IV期GC和NGC的预测性能。
04
代谢预后模型准确预测 GC 患者的预后
由于精确的预后可以实现精确的干预并有利于临床上患者的治疗结果,因此他们还尝试开发一种机器学习衍生的预后模型。为此,他们收集了 181 名 GC 患者(队列3)血浆中的代谢组学概况,并在中位随访期 40 个月的情况下收集了他们的临床信息。然后利用随机生存森林方法建立了28代谢物预后模型(28-PM模型)。具体来说,训练集患者最初使用 147 种代谢物参与模型构建。然后,为了避免模型过度拟合,选择 28 种代谢物作为重新训练最佳模型(28-PM 模型)的关键特征,其一致性指数(c 指数)为 0.90(图 4a)。随后,28-PM模型在测试集上进行评估,显示出有效的预测能力,AUROC为0.832 (95% CI: 0.697-0.951,敏感性:0.900,特异性:0.700),c指数为0.83(图4b)。
为了与临床医生用于实证预后评估的临床因素相比,评估模型的预测能力,他们最初使用单变量 Cox 回归分析对与预后相关的临床变量进行了筛选。他们将TNM分期、宏观外观和血管瘤栓子确定为与预后显著相关的三个临床相关因素(图4c)。随后,通过利用 C 指数值作为模型性能指标的比较分析,他们确定这三个临床因素中每一个的预测功效,无论是单独考虑还是组合考虑,均低于 28-PM 模型所表现出的预测功效。
鉴于临床指标对预后预测的影响,他们进一步尝试将临床特征组合纳入28-PM模型中,以评估这是否会增强28-PM模型的预测能力。代谢模型28-PM在预测GC患者不同阶段的预后方面表现出更大的鲁棒性(图4d)。与晚期患者相比,整合临床特征的代谢模型为早期患者实现了更高的预后预测准确性。总之,将临床特征纳入代谢模型并不会显著改善模型性能。
随后,他们评估了测试集中每个患者的 28-PM 模型的预测性能。他们将GC患者分层为高危组和低危组,并注意到除1例死于心脏病发作的患者(图4e)外,几乎所有死者都属于高危组,这表明了28-PM模型的预后能力。观察到高危患者的无病生存期(DFS)和总生存期(OS)较低危患者差(图4f),他们进一步对两组的生存状态分布和复发/转移情况进行了表征。正如预期的那样,高风险组的死亡个体比例更高,而低风险组的非转移/非复发患者更突出(图4g),这表明28-PM模型成功识别了需要改进治疗方案的患者。
图4. 预后模型在预测 GC 患者预后方面优于临床参数。
(a) 预后模型设计的示意图。 (b) 测试集的ROC曲线分析。(c) 通过单变量 Cox 回归分析确定具有显著预后相关性的临床参数森林图。(d) 测试集中宏观外观、TNM 分期、血管肿瘤栓子和 28-PM 模型的 C 指数值比较。(e) 使用 28-PM 模型对测试集患者进行预后预测。(f)生存分析。 (g) 高风险组的死亡和复发/转移比例较高。
+ + + + + + + + + + +
结 论
本项研究对来自多中心参与者的 702 份血浆样本进行了有针对性的代谢组学分析,以阐明 GC 代谢重编程,机器学习分析揭示了 10 种代谢物 GC 诊断模型,该模型在外部测试集中得到验证,灵敏度为 0.905,优于利用癌症蛋白标记物的传统方法(灵敏度 < 0.40)。此外,本项研究的机器学习衍生的预后模型利用临床参数表现出优于传统模型的性能,并有效地将患者分为不同的风险组以指导精准干预。总的来说,这项研究结果揭示了GC的代谢状况,并确定了两个不同的生物标志物组,分别能够进行早期检测和预后预测,从而促进GC的精准医疗。
+ + + + +