Nat Commun | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
过去十年间,得益于癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等计划的推动,癌症组学取得显著发展,特别是在肿瘤DNA和RNA层面,并生成了大量数据;但目前人们对肿瘤中蛋白质翻译及翻译后修饰(PTM)相关知识仍有待完善。反相蛋白质微阵列(RPPA)技术可对癌症样本进行大规模功能蛋白质组学数据分析,提供了对癌症机制的重要见解,有助于发现新型生物标志物和治疗靶点。
近日,美国 德克萨斯大学 MD安德森癌症中 心 梁晗 团队 利用 RPPA 技术, 分析了 8 , 000 份 TCGA 患者肿瘤样本和 900 份 CCLE 细胞系样本, 构建了 一个全面 、高质量的 的 泛癌 功能蛋白质组学 数据库 RPPA500 , 包括近 500种高质量抗体,涵盖所有主要癌症标志通路。 为提高该资源可访问性和分析能力, 同时推出了 一个由 先进 大语言模型( LLMs)驱动的直观生物信息学平台 DrBioRight 2.0 , 用户可通过 自然语言探索以蛋白质为中心的癌症组学数据,执行高级分析 、 可视化结果 并 进行互动讨论交流。

研究团队首先构建了 RPPA500 数据集,共包含约 9,000 个样本 。其中, TCGA 队列有 7,828 个患者肿瘤样本,涉及 32 种癌症类型; CCLE 队列涵盖 878 个癌细胞系。经筛选, RPPA500 蛋白质集包含 447 种蛋白质标记,包括 357 种总蛋白和 90 种 PTM 蛋白,且高度富集治疗靶点和生物标志物 。 RPPA500 蛋白质 panel 全面覆盖了 50 个标志性基因集;相较其他蛋白质 panel ,总蛋白数量增加 115% , PTM 蛋白数量增加 67% ,极大提升人们从蛋白质层面理解癌症生物学的能力。

图 1. DrBioRight 2.0 中的数据集成工作流程和关键创新概述
同时, 研究团队还开发了一个基于 LLM 的新型聊天机器人 DrBioRight 2.0 ,其具备自然语言处理功能,使用户能够直观、智能地探索、分析和可视化上述 RPPA 数据 。具体而言,研究团队首先生成了一个统一多组学数据集,对患者临床、分子层面、蛋白质层面及细胞系表型数据进行标准化、归一化处理,将超 10 亿数据值以 HDF5 格式在云服务器非关系型数据库中整理、重构;然后重新审查了蛋白质标志物,通过交叉对比在不同层面对其进行详细注释,以利于用户分析。
与传统平台相比, DrBioRight 2.0 拥有自然语言理解能力、透明度、可重复性以及用户友好性等功能,这些特殊功能由以下几项关键的前沿技术提供支持 : ① 聊天界面:基于会话的实时聊天界面; ② 提示词:高度可定制的面向 LLM 的特定领域知识提示; ③ LLM :由 LLM 赋能的生成式 AI : ④ 代码生成:无缝的代码生成与校正循环; ⑤ 插件:深度嵌套的交互式插件增强了数据的有效可视化和分析。
使用 DrBioRight 2.0 时, 用户输入相关指令, 便 可生成交互式热图、 自动化 进行相关性分析和生存分析等,且分析结果支持下载和本地复现。

图 2. DrBioRight 2.0 平台概述
DrBioRight 2.0的系统架构由No-SQL数据库 、 LLM驱动的后端分析模块 和 交互式聊天界面 等 三个核心 部分 组成 。
DrBioRight 2.0 创新点在于当 用户 开始 一项 分析 时 ,只需选择一种疾病(如肺腺癌 [LUAD]) , 系统便会 自动将相关的多组学数据链接到用户的项目空间, 以 进行查询和分析 ; 后端 LLM 可 预测用户意图,区分 是 一般 性 查询 或 需要代码生成或生物信息学分析的 深度 查询 ; 随后 基于思维链输出逻辑流程 辅助 用户理解 , 同时即 时生成基于文本答案或编程脚本 ; 代码在提交前 也 会经过 系统 审查和验证 , 自动纠正常见错误 , 最后通过交互 聊天界面显示结果 。 特别地,研究团队还 集成了一个评分功能, 通过用户 反馈 评分和专家 手动 评估,利用人类反馈强化学习( RLHF) 实现 LLM 的持续 迭代优化。
为提升 DrBioRight 2.0性能 ,研究团队采用 前沿技术增强 LLM 。 运用多智能体 ( multi-agent) 工作流程,借助图架构 建立 分层智能体团队,各团队 由一个或 多个智能体或工具 组成, 负责特定分析任务。 此外 , 研究团队还 通过专家评审整理、标准化数千个用户查询,创建训练和测试数据集分三阶段来微调 LLM : ① 基于提示 -响应 进行 初始监督微调; ② 开发评估系统量化专家评分,用评估数据训练奖励模型; ③ 使用 Hugging Face PPO 策略 优化 强化学习 。
研究团队通过 独立测试集 对多个平台进行了性能评估。结果显示, 传统 TCPA平台仅能处理26%的问题,GPT-4的成功率为58%,而 经过微调的DrBioRight 2.0在相同问题上成功率高达90% , 这 凸显了融入领域特定知识、微调过程和多智能体工作流的重要性 。 值得注意的是 , DrBioRight 2.0 还 对于大规模多组学数据的整合和存储进行了深度优化,确保数据的高效访问和处理,大大缩短了获取分析结果的时间 , 并 能够适应不断变化的科研场景。

图 3 . 微调过程和模型评估概述
综上, DrBioRight 2.0 是癌症蛋白质组学数据研究的重大进展,实现了三大里程碑 :拓宽了蛋白质研究空间,为生物医学研究提供了独特资源; LLM 赋能的智能交互平台可实现直观、多功能且高定制对话分析,降低使用门槛;数据与大语言模型深度融合,提升了资源效用,加速了用户与开发者之间的反馈循环。 DrBioRight 2.0 有望引领数据分析和共享平台发生突破性变革,可推动形成服务生物医学研究者的综合生态系统。
https://drbioright.org
参考文献:
Liu, W., Li, J., Tang, Y. et al. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis. Nat Commun 16, 2256 (2025). https://doi.org/10.1038/s41467-025-57430-4
·END·
链接:http://www.lewenyixue.com/2025/03/13/Nat%20Commun%20%7C%20%E6%88%90%E5%8A%9F%E7%8E%87%E8%BE%BE90%25/



赶快来坐沙发