关注我们

扫码关注我们

了解更多信息

首页 > 资源中心 > 客户案例 > NAT BIOMED ENG丨深度学习+大模型“杂交”,用AI发现自噬与癌症的关联机制及治疗前景

NAT BIOMED ENG丨深度学习+大模型“杂交”,用AI发现自噬与癌症的关联机制及治疗前景

2026.06.02 浏览量 来源:汉恒生物

随着高通量测序的飞速发展,转录组、蛋白质组及磷酸化蛋白质组等多组学技术已成为解析生物系统分子全景的重要手段。然而,海量数据的解读仍面临严峻挑战:传统分析方法多依赖于统计显著性,往往难以揭示其背后的生物学机制,尤其在对复杂调控网络的机理推断与实验转化方面存在明显不足。针对以上瓶颈,本研究建立了一种融合深度学习与大语言模型(LLM)推理的混合框架 LyMOI,成功实现了对多组学数据的生物学机制化解读。该框架展现出良好的通用性与解释潜力,为组学数据的机制解析与转化研究提供了新范式。

用AI发现自噬与癌症的关联机制及治疗前景

2026年1月,华中科技大学薛宇教授和彭迪副教授作为共同通讯在Nature Biomedical Engineering期刊发表了题为“A deep learning and large language hybrid workflow for omics interpretation”的研究论文。本研究针对海量多组学数据难以进行机制性解析的挑战,开发了一种融合深度学习与大语言模型推理的混合工作流,命名为LyMOI。这个框架整合了基于图卷积网络的大规模知识图谱与GPT-3.5的生物学常识推理能力,能够从多组学数据中预测特定情境下的调控因子,并通过机器思维链对其在生物系统中的功能进行机制阐释。本文主要聚焦于自噬过程,LyMOI系统解读了1.3 TB的转录组、蛋白质组与磷酸化蛋白质组数据,显著扩展了自噬调控因子的知识体系。结果显示,两个人类癌蛋白CTSL和FAM98A在抗肿瘤药物双硫仑(DS  F)处理下可增强自噬;体外实验证实沉默这两个基因能抑制DSF介导的自噬并降低癌细胞增殖。值得注意的是,将DSF与CTSL特异性抑制剂Z-FY-CHO联用,在体内显著抑制了肿瘤生长。这些结果不仅揭示了自噬调控的新机制,也为肿瘤联合治疗提供了新的策略依据。

在本研究中,汉恒生物有幸为作者提供了自噬报告工具(mCherry-GFP-LC3慢病毒)、及分别敲低CTSL或FAM98A的HeLa稳转细胞株的制备服务,为本研究从细胞机制探索到动物模型验证的全链条实验提供了可靠的技术支持,是推动核心发现——CTSL/FAM98A调控自噬影响癌症治疗——得以实现和验证的重要支撑。

下面,我们一起来了解具体的研究内容:

研究成果

基于混合大模型辅助的组学解读

作者通过整合大规模语言模型与深度学习图网络,构建了名为LyMOI的混合解释框架,实现了对多组学数据的高通量、机制化解析。通过GPT-3.5零样本提示,从四种模式生物中筛选出302个高可信度的自噬调控基因,其中109个为新发现基因。进一步融合多组学数据,构建涵盖562个真核物种、约1.88亿相互作用的大型知识图谱,并采用“教师-学生”分层架构预测特定条件下的自噬调控因子。结果显示,与传统差异表达分析相比,LyMOI对已知自噬调控基因的识别率从4.1%提升至30.9%,显著提高了数据挖掘的生物学相关性。该框架还能通过图推断与语言模型推理自动生成机制解释,为后续实验与转化研究提供线索。

 混合框架的整体工作流程

图1. 混合框架的整体工作流程

GPT-3.5生成的合成数据集

为应对LLM在知识提取中存在的“幻觉”问题,作者设计了包含功能总结与置信度评分的零样本提示策略,有效降低了错误关联。利用该策略对四个物种的全部基因进行查询,构建了一个包含56,980个“提示-生成对”的合成数据集,用于解读潜在的自噬相关基因。评估显示,GPT-3.5生成结果的模型预测性能(AUC)值在0.66 ~ 0.73之间,特异性较高。升级至GPT-4o后,AUC值进一步提升1.4% ~ 12.1%。对高置信度结果的抽查验证表明,其准确率在76.7% ~ 84.6%之间。通过思维链提示,模型能有效归纳出自噬调控的核心通路(如mTOR信号等),其输出与GO富集分析结果一致,并能补充新的生物学过程关联。然而,研究也发现机器推理中仍存在“幻觉”(如生成未报道的Atg1-Atg18磷酸化关系)。综上,精心设计的提示工程能稳定地从LLM中提取高价值知识,但其所生成的机制性解释仍需通过实验进一步验证。

利用LLM在全基因组水平解读自噬过程

图2. 利用LLM在全基因组水平解读自噬过程

LyMOI的应用使已知自噬调节因子数量显著扩增

随后,作者验证了LyMOI框架在预测自噬调节因子方面的优越性能。通过整合562个真核物种的蛋白质组与已知蛋白质的相互作用,构建了包含近1.88亿个关系的大型知识图谱,并采用基于图卷积网络的“教师-学生”分层架构进行训练与预测。结果表明,引入GPT-3.5生成的合成知识使AUC提升7.8%,图卷积网络的表现优于传统机器学习方法。分层架构有效兼顾了自噬调控的通用模式与条件特异性,“学生”模型在氮饥饿、葡萄糖饥饿及双硫仑处理等特定诱导条件下的AUC值高达0.92-0.94。跨物种知识图谱与多组学数据的整合进一步显著提升了模型预测能力。最终,LyMOI成功将具有明确调控条件的自噬调节因子数量从已知的374个扩展至3,640个,极大丰富了自噬调控网络的知识库,并为在特定生理或病理条件下发现新型调控因子奠定了重要基础。

LyMOI框架和性能评估概述

图3. LyMOI框架和性能评估概述

通过表征酵母自噬调节因子验证LyMOI推理

在成功扩展自噬调控网络的基础上,作者进一步在酵母模型中验证了LyMOI预测新型调节因子的功能与作用机制。与传统差异表达分析相比,LyMOI在葡萄糖饥饿条件下预测的候选分子中,已知自噬相关基因的比例从不足5%提升至31.8%,显著提高了组学数据的生物学解读效率。实验验证成功鉴定出两个新型自噬调节因子Gin4与Elm1,其缺失显著抑制自噬流关键指标(如GFP-Atg8切割、液泡GFP滞留及ALP活性),证实它们在维持葡萄糖饥饿诱导的自噬中具有关键功能。进一步结合图推断与语言模型推理,研究揭示了Gin4和Elm1可能通过Snf1信号通路调控核心自噬基因Atg1的活性,且部分预测的分子调控关系(76.9%)已获文献支持。该策略同样适用于氮饥饿条件,成功鉴定出Ste50与Rvs167等新型调节因子。这些结果表明,LyMOI不仅能高效发现新的自噬调控基因,还可通过多方法融合推断其潜在作用机制,为在不同生理压力下解析自噬调控网络提供了强有力的系统生物学工具。

酵母自噬中新成员的鉴定

图4. 酵母自噬中新成员的鉴定

LyMOI推理辅助鉴定DSF诱导自噬中关键调节因子

基于在酵母模型中的验证,LyMOI框架进一步应用于哺乳动物系统,成功揭示了DSF诱导自噬的关键调控因子CTSL与FAM98A。研究发现,在DSF处理条件下,传统差异表达分析识别的自噬相关基因比例仅为5%,而LyMOI预测的候选分子中该比例提升至45.5%。通过siRNA敲低、荧光示踪等多重实验验证,证实沉默CTSL或FAM98A可显著抑制自噬流关键指标(如LC3-II水平、自噬斑点形成及自噬体—溶酶体融合)。进一步的机制推理表明,CTSL可能通过激活NF-κB通路间接调控BECN1表达,且由语言模型推导出的大部分(73.1%)分子调控关系已获文献支持。

FAM98A和CTSL在DSF介导的自噬激活中起关键作用

图5. FAM98A和CTSL在DSF介导的自噬激活中起关键作用

LyMOI推理揭示DSF诱导的自噬与癌症存活之间的关联

在明确CTSL与FAM98A为DSF诱导自噬的关键调控因子的基础上,作者进一步揭示了二者通过自噬依赖机制促进肿瘤存活的生物学功能与临床意义。功能研究显示,沉默CTSL或FAM98A可显著抑制HeLa细胞的增殖与迁移,且该作用依赖于完整的自噬通路。进一步的KEGG富集分析揭示二者所在调控网络显著关联癌症相关通路,临床数据也证实其高表达与患者不良预后密切相关,且在肿瘤组织中特异性高表达,提示其作为预后标志物的潜力。体内实验表明,敲低CTSL或FAM98A能有效增强DSF对移植瘤生长的抑制效果,且与自噬抑制剂氯喹联用具有协同作用。机制上,转录组分析发现二者同时调控NF-κB、ERK等炎症相关通路。综上,CTSL与FAM98A通过协同调控自噬—炎症网络促进肿瘤存活,为发展靶向联合治疗策略提供了新依据。

CTSL和FAM98A通过自噬途径促进癌细胞存活

图6. CTSL和FAM98A通过自噬途径促进癌细胞存活

LyMOI为癌症治疗提供了一种潜在的联合疗法

在确定DSF诱导的自噬通过CTSL/FAM98A轴促进肿瘤存活后,作者基于LyMOI的机制提出了靶向CTSL的联合治疗策略。实验证实,CTSL抑制剂Z-FY-CHO与DSF联用,在体外和移植瘤模型中均显示出优于单一药物的协同抗肿瘤效果。同时,研究还验证了LyMOI框架在砷毒性、乳腺癌转移及自闭症谱系障碍等多种生物场景中的强大扩展能力—该预测不仅显著提高了关键调控因子的识别数量(最高提升19.1倍),在单细胞组学解读中也成功构建了大量经文献支持的分子调控网络。这些结果充分证明,LyMOI不仅能驱动肿瘤治疗新策略的发现,更是一个具备广泛适用性的、可进行生物学机制常识推理的通用组学的解读平台。

LyMOI的联合治疗和扩展应用

图7. LyMOI的联合治疗和扩展应用

总结

综上所述,本研究构建的LyMOI智能框架,实现了多组学数据的深度机制解析与关键因子的挖掘,不仅系统揭示了CTSL/FAM98A在自噬—肿瘤通路中的核心调控作用,并基于此提出并验证了靶向CTSL的联合治疗的新策略,还在砷毒性、乳腺癌转移等多种疾病场景中展现出强大的可扩展性与知识发现能力,为人工智能驱动的生物医学研究提供了高效、可解释的新范式。

暂无上一篇
推荐焦点
RECOMMENDED FOCUS