科研动态
【胸科学术】病理多模态AI精准预测EGFR突变的晚期NSCLC靶向治疗疗效 助力个体化临床决策
近日,首都医科大学附属北京胸科医院病理科联合透彻实验室开展的基于多模态弱监督学习技术的晚期 EGFR 突变非小细胞肺癌(NSCLC)一线EGFR-TKI治疗前的个体化评估研究成果「Multimodal prediction of tyrosine kinase inhibitors therapy outcomes in advanced EGFR-mutated NSCLC patients」在Journal of Translational Medicine发表。这一研究将术前H&E全扫描数字切片(WSI)与多维临床变量深度融合,构建多模态弱监督人工智能体系,首次实现在EGFR-TKI一线治疗前同步判定患者应答状态并定量输出无进展生存期(PFS,精确至月),为晚期EGFR突变型非小细胞肺癌之精准决策提供了新的循证基础与技术范式。本论文第一作者为北京胸科医院病理科博士研究生柴晓东,通讯作者为北京胸科医院病理科主任车南颖。
本研究为单中心回顾性队列,连续纳入2017年1月至2020年12月在北京胸科医院接受一线EGFR-TKI治疗的Ⅳ期EGFR突变NSCLC患者247例,共获取250张福尔马林固定石蜡包埋(FFPE)活检切片;按患者层面8:2随机拆分训练集与测试集。治疗反应采用RECIST 1.1标准,将最佳疗效为完全缓解(CR)或部分缓解(PR)定义为“应答”,疾病稳定(SD)或进展(PD)归为“不应答”;无进展生存期(PFS)自首次给药日至进展或全因死亡。多模态数据由两部分构成:WSI端使用20×放大、2048×2048像素无重叠切块;临床端采集性别、年龄、吸烟史、EGFR突变亚型,以及血常规、生化、凝血、肿瘤标志物等90余项指标,连续变量min-max归一化,分类变量独热编码,最终生成200维稠密向量。
方法学上,团队并行构建单模态、多模态的治疗应答分类模型(TR-C,TR-W,TR-M)与PFS时间回归模型(PFS-C,PFS-W,PFS-M)。用于构建TR模型的图像特征由ResNet50提取 2048维全局表征;用于构建PFS模型的图像特征由病理大模型UNI提取1024维全局表征。提取的图像特征及上述生成的200维临床特征,单独输入、或者经早期融合生成2248维和1224维综合特征,输入四层MLP(线性-BN-ReLU-dropout堆叠)端到端训练。
TR模型在切片级预测阶段引入“双阈值投票”策略:先以0.5为基线、0.01为步长在0–0.5区间生成动态阈值,统计阳性/阴性块数量,若阳性占优则取前10%高置信块均值作为切片概率,否则取后10%低置信块均值,最终输出“应答/不应答”概率,评价指标包括AUC、准确率、灵敏度、特异度及决策曲线分析。PFS-M直接回归PFS(月),损失函数为MSE,优化器Adam,评价指标为MAE、MSE,并采用Cox模型及Kaplan-Meier曲线验证风险分层能力。
结果显示,多模态方案优于单模态。测试集中,TR-M的AUC 0.943(95% CI 0.873–1.000)、准确率0.841、灵敏度0.800、特异度1.000,显著优于单独使用WSI或临床特征模型;DCA曲线显示其临床净获益横跨全部风险阈值。
PFS-M预测误差在多模态模型中进一步压缩:测试集MAE 2.69月、MSE 12.83,显著低于临床单模态(MAE 7.52月)或图像单模态(MAE 5.12月);Kaplan-Meier分析表明模型能有效将患者分为高/低风险组,HR 10.03(95% CI 3.88–25.96,p<0.0001)。散点图也展示了PFS-M较低的预测误差。
生物学可解释性方面,热力图显示高置信区域倾向于分布在淋巴细胞聚集灶,提示免疫细胞浸润与应答正相关;χ2检验示有/无淋巴细胞灶的客观缓解率差异接近统计显著(p=0.071)。临床特征权重显示,外周血淋巴细胞百分比位列前10,高淋巴细胞组PFS显著延长(HR 0.655,95% CI 0.465–0.924,p=0.016);纤维蛋白原水平位居第2,高水平提示进展风险增加(HR 1.798,95% CI 1.314–2.460,p<0.001)。存在胸腔积液、血小板压积增大亦与PFS缩短独立相关。模型所发现的这些特点,可能为后续生物标志物开发提供线索。
基于TR-M与PFS-M联合输出,研究给出可直接落地的临床决策树:①应答且PFS≥12月——TKI单药;②不应答且PFS<12月——起始治疗即采用TKI联合化疗或者其他治疗;③不应答但PFS≥12月——TKI单药+密切随访;④应答但PFS<12月——TKI单药+早期联合治疗策略。
本研究以WSI与多维临床变量的深度融合为核心,突破单模态预测的局限,构建可同时判定治疗应答并精确量化无进展生存期的多模态人工智能体系,为晚期EGFR突变NSCLC患者的个体化决策提供了循证可行的操作范式。展望未来,随着多中心、前瞻性队列的持续验证及算法的迭代优化,该模型有望从科研前沿走向临床实践,使“精准医学”理念真正落实为每一位患者触手可及的福祉。