top

Nat Commun | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式












过去十年间,得益于癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等计划的推动,癌症组学取得显著发展,特别是在肿瘤DNA和RNA层面,并生成了大量数据;但目前人们对肿瘤中蛋白质翻译及翻译后修饰(PTM)相关知识仍有待完善。反相蛋白质微阵列(RPPA)技术可对癌症样本进行大规模功能蛋白质组学数据分析,提供了对癌症机制的重要见解,有助于发现新型生物标志物和治疗靶点。

近日,美国 德克萨斯大学 MD安德森癌症中 梁晗 团队 利用 RPPA 技术, 分析了 8 , 000 TCGA 患者肿瘤样本和 900 CCLE 细胞系样本, 构建了 一个全面 、高质量的 泛癌 功能蛋白质组学 数据库 RPPA500 包括近 500种高质量抗体,涵盖所有主要癌症标志通路。 为提高该资源可访问性和分析能力, 同时推出了 一个由 先进 大语言模型( LLMs)驱动的直观生物信息学平台 DrBioRight 2.0 用户可通过 自然语言探索以蛋白质为中心的癌症组学数据,执行高级分析 可视化结果 进行互动讨论交流。


研究团队首先构建了 RPPA500 数据集,共包含约 9,000 个样本 。其中, TCGA 队列有 7,828 个患者肿瘤样本,涉及 32 种癌症类型; CCLE 队列涵盖 878 个癌细胞系。经筛选, RPPA500 蛋白质集包含 447 种蛋白质标记,包括 357 种总蛋白和 90 PTM 蛋白,且高度富集治疗靶点和生物标志物 RPPA500 蛋白质 panel 全面覆盖了 50 个标志性基因集;相较其他蛋白质 panel ,总蛋白数量增加 115% PTM 蛋白数量增加 67% ,极大提升人们从蛋白质层面理解癌症生物学的能力。

1. DrBioRight 2.0 中的数据集成工作流程和关键创新概述

同时, 研究团队还开发了一个基于 LLM 的新型聊天机器人 DrBioRight 2.0 ,其具备自然语言处理功能,使用户能够直观、智能地探索、分析和可视化上述 RPPA 数据 。具体而言,研究团队首先生成了一个统一多组学数据集,对患者临床、分子层面、蛋白质层面及细胞系表型数据进行标准化、归一化处理,将超 10 亿数据值以 HDF5 格式在云服务器非关系型数据库中整理、重构;然后重新审查了蛋白质标志物,通过交叉对比在不同层面对其进行详细注释,以利于用户分析。

与传统平台相比, DrBioRight 2.0 拥有自然语言理解能力、透明度、可重复性以及用户友好性等功能,这些特殊功能由以下几项关键的前沿技术提供支持 聊天界面:基于会话的实时聊天界面; 提示词:高度可定制的面向 LLM 的特定领域知识提示; LLM :由 LLM 赋能的生成式 AI 代码生成:无缝的代码生成与校正循环; 插件:深度嵌套的交互式插件增强了数据的有效可视化和分析。

使用 DrBioRight 2.0 时, 用户输入相关指令, 便 可生成交互式热图、 自动化 进行相关性分析和生存分析等,且分析结果支持下载和本地复现。

2. DrBioRight 2.0 平台概述

DrBioRight 2.0的系统架构由No-SQL数据库 LLM驱动的后端分析模块 交互式聊天界面 三个核心 部分 组成

DrBioRight 2.0 创新点在于当 用户 开始 一项 分析 ,只需选择一种疾病(如肺腺癌 [LUAD]) 系统便会 自动将相关的多组学数据链接到用户的项目空间, 进行查询和分析 后端 LLM 预测用户意图,区分 一般 查询 需要代码生成或生物信息学分析的 深度 查询 随后 基于思维链输出逻辑流程 辅助 用户理解 同时即 时生成基于文本答案或编程脚本 代码在提交前 会经过 系统 审查和验证 自动纠正常见错误 最后通过交互 聊天界面显示结果 特别地,研究团队还 集成了一个评分功能, 通过用户 反馈 评分和专家 手动 评估,利用人类反馈强化学习( RLHF) 实现 LLM 的持续 迭代优化。

为提升 DrBioRight 2.0性能 ,研究团队采用 前沿技术增强 LLM 运用多智能体 multi-agent) 工作流程,借助图架构 建立 分层智能体团队,各团队 由一个或 多个智能体或工具 组成, 负责特定分析任务。 此外 研究团队还 通过专家评审整理、标准化数千个用户查询,创建训练和测试数据集分三阶段来微调 LLM 基于提示 -响应 进行 初始监督微调; 开发评估系统量化专家评分,用评估数据训练奖励模型; 使用 Hugging Face PPO 策略 优化 强化学习

研究团队通过 独立测试集 对多个平台进行了性能评估。结果显示, 传统 TCPA平台仅能处理26%的问题,GPT-4的成功率为58%,而 经过微调的DrBioRight 2.0在相同问题上成功率高达90% 凸显了融入领域特定知识、微调过程和多智能体工作流的重要性 值得注意的是 DrBioRight 2.0 对于大规模多组学数据的整合和存储进行了深度优化,确保数据的高效访问和处理,大大缩短了获取分析结果的时间 能够适应不断变化的科研场景。

3 . 微调过程和模型评估概述

综上, DrBioRight 2.0 是癌症蛋白质组学数据研究的重大进展,实现了三大里程碑 :拓宽了蛋白质研究空间,为生物医学研究提供了独特资源; LLM 赋能的智能交互平台可实现直观、多功能且高定制对话分析,降低使用门槛;数据与大语言模型深度融合,提升了资源效用,加速了用户与开发者之间的反馈循环。 DrBioRight 2.0 有望引领数据分析和共享平台发生突破性变革,可推动形成服务生物医学研究者的综合生态系统。


DrBioRight 2.0

https://drbioright.org


参考文献:

Liu, W., Li, J., Tang, Y. et al. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis. Nat Commun 16, 2256 (2025). https://doi.org/10.1038/s41467-025-57430-4


·END·

THE END
icon
0
icon
分享
icon
海报
发表评论
评论列表

赶快来坐沙发