浙大学者结合血浆蛋白质组学等,开发结直肠癌发病预测模型,发文Nature子刊,来看看过程与统计方法

202 4年10月15日, 浙江大学医学院附属第二医院学者团队在顶级 期刊 Nature 子刊 《Nature Communications》 (医学一区top,IF=14.7) 上发表了题为 “Plasma proteomic and polygenic profiling improve risk stratification and personalized screening for colorectal cancer” 的研究论文,旨在通过将蛋白质组学特征与遗传和非遗传因素(QCancer-15)相结合,确定结直肠癌(CRC)相关的蛋白质组学特征并开发CRC发病预测模型,以改善风险分层和个性化初始筛查年龄的估计。

在该项研究中, 通过将血浆蛋白质组学与多基因风险评分(PRS)和QCancer-15进行整合分析, 成功验证了其在提升风险分层精确度及对CRC筛查风险适应起始年龄的推导的临床意义, 进而可能为CRC筛查的决策流程提供更加有力的支持。

如果你需要全文,请公众号后台回复关键词“ pdf”。如果您需要进一步的了解随机对照研究如何进行数据分析,不妨看看我们 临床试验设计与数据分析培训班! 详情可咨询助教,微信号:aq566665

直肠癌(CRC)是目前临床上最常见的恶性肿瘤之一,也是造成癌症死亡的第二大原因。据统计,结直肠癌的预后与早期诊断密切相关,多数早期诊断结直肠癌愈合良 好,5年生存 率可达90%,而晚期诊断生存率则不足10%。
在先前的研究中,研究者发现与CRC相关的蛋白标志物可用于区分CRC患者,同时遗传和公认的非遗传因素(例如,QCancer-15 )在CRC发病率中也起重要作用。
在这项研究中,研究团队
  • 首先基于病例对照研究和前瞻性人群队列的 两阶段策略 来识别和验证与CRC相关的蛋白质组学特征, 以构建蛋白质风险评分(ProS)。

  • 构建了 QCancer-15风险评分、多基因风险评分(PRS) ,并结合关键的蛋白质生物标志物 开发CRC发病预测模型。

  • 最后, 评估 联合模型的预测性能和潜在的临床效用,包括净收益、风险分层和 CRC 个性化初始筛查年龄。
主要结局: CRC诊断,定义为结肠和直肠的恶性肿瘤。
图1 研究流程
病例对照研究包括:浙大附属二院的 150例新诊断的CRC病例(年龄范围:44-89岁)和50例性别和年龄匹配的对照 );
前瞻性人群队列则是UKB数据库,共纳入 52,231名年龄3 9-70岁 2006年至2010年招募的来自UKB具有 蛋白质组学测量的参与者,其中包括 731例CRC病例以及 51,500例对照。

结直肠癌(CRC)预测模型

研究团队结合ProS、PRS和 QCancer-S开发了一个综合 模型, 在训练队列和验证队列中,综合模型(QCancer-15+PRS+ProS)的C统计量的表现均显著优于仅使用QCancer-15评分的模型 (训练队列为0.79对0.71,验证队列为 0.75对0.69 )。
图2 基于QCancer-15风险评分(QCancer-S)、多基因风险评分(PRS)、蛋白质风险评分(ProS)和组合模型的结直肠癌(CRC)预测模型评估

综合模型在风险分层方面表现出色

在整合Pr oS、PRS和QCancer-S后,研究团队将综合模型和组合风险评分 (ComS) 的组成部分分为三组(低风险组、中风险组和高风险组)。
结果发现, 与中风险组相比, 高ProS (HR: 1.67) PRS (HR: 2.71) QCancer -15 (HR: 1.91) 的CRC风险增加,但 高ComS组 (HR: 3.27) 的CRC风险增加更显著,在训练队列和验证队列中均有类似趋势(分别为2.94和 4.27倍)。
这表明综合模型能显著提升风险分层的精度,帮助临床医生更早识别高风险人群,进行针对性筛查和干预。
此外,根据10年累计风险估算,研究建议为不同风险组设定个性化的筛查起始年龄,其中:
  • 高PRS组的受试者应在41岁开始筛查,而低PRS组的筛查起始年龄为60岁以上;

  • 高ProS组的受试者应在46岁开始筛查,而低ProS组的筛查起始年龄为57岁;

  • ComS显示,高风险组的受试者建议在40岁之前开始筛查,而低风险组则可推迟至60岁以后再进行筛查。
图3 基于(a) QCancer-S、(b)PRS、(c)ProS和(d)ComS的风险组间Kaplan-Meier累积发生率曲线
图4 基于(e) PRS、(f) ProS和(g) com的风险组的参与者的年龄特异性CRC的10年累积风险
虚线表示在特定年龄的10年累积风险曲线中,虚线表示一般人群在50岁时的风险(即现行指南建议对平均风险成人进行筛查的起始年龄)。
上所述,研究团队通过开发结合蛋白质组学、多基因评分和传统非遗传风险因素的结直肠癌风险预测模型,显著提高了风险预测的准确性。综合模型不仅能够有效识别高风险人群,还为个性化筛查提供可能,特别是在筛查起始年龄和干预时机的选择上,具有不错的临床应用潜力。

统计学方法

1. 蛋白质组学特征的 识别和验证 在基于病例对照设计的发现阶段,
  • 使用主成分分析和Pearson相关系数矩阵来识别异常样本(补充方法)

  • 在去除异常样本后,基于‘ limma ’ package29进行蛋白质组级差异表达分析

  • 采用FDR进行多重检验校正,以FDR < 0.05为显著性水平。

  • 对于处于发现阶段的显著蛋白(FDR < 0.05),我们进一步采用 Cox 比例风险(CPH)模型 评估其与验证队列中CRC发病率的关系。

在验证阶段,作用方向一致且P值显著(P < 0.05)的蛋白视为验证成功。
2.构建风险预测模型:
  • 通过 LASSO-Cox回归 ,在通过两阶段测试的蛋白质中进一步选择了CRC相关蛋白质特征,总共保留15个蛋白质。

  • 使用` caret `包,以 7:3的比例 将UKBB参与者随机分为训练和验证组。

  • 基于QCancer-S、QCancer-S(包括地理区域)、2 prs或ProS分别建立结直肠癌风险预测模型,使用CPH模型在培训队列中进行五倍交叉验证。

  • 接下来,将表现最佳的QCancer-S、ProS和PRS组合, 构建预测结直肠癌发病风险的联合模型。

  • 这些模型还通过性别分层、肿瘤部位(结肠或直肠)、肠癌筛查(是否)和CRC家族史(是否)进行评估。

3.模型性能与潜在临床应用评估: 该模型的性能评估使用了广泛的指标,包括接收者-操作特征曲线下的面积(AUC,称为c统计量)、相对风险校准、净收益、风险比估计、风险分层、风险进展期和10年CRC累积风险。
  • 在训练队列中,采用 c统计量 (95%置信区间,CI)进行五倍交叉验证,并在验证队列中进一步评估这些模型的判别性。

  • 采用自举法,采用500个分层自举重复,比较不同模型的性能差异。

  • 使用“riskRegression”软件包绘制 校准曲线 ,以直观地描述基于CPH模型的观测事件率与预测风险之间的一致性。

  • 建立QCancer-S、PRS和ProS的 列线图 ,用于预测5年、10年和15年无结直肠癌的预后。

  • 为了评估预测模型对推荐的CRC干预措施(如筛查)的潜在临床效用,使用“ggDCA”包进行 决策曲线分析

4. 风险比估计及风险分层分析

  • HRs 首先通过CPH回归得出QCancer-S、PRS和ProS每SD增加的总体、性别特异性和部位特异性CRC风险。

  • 然后,根据QCancer-S、PRS、ProS和ComS(补充方法)在当前UKBB人群中的分布,分别分为q1最低、Q2、Q3和q4最高的四分位数。

  • 由于10年累积风险曲线 趋势相似 ,进一步将风险评分分为低、中、高3组(补充图9)。

  • 具体而言,以普通人群10年累积风险为参照,将Q3中风险与普通人群相似的参与者划分为中风险组,将Q1和Q2中风险低于普通人群的参与者划分为低风险组。Q4的参与者被划分为高危组。

  • 以中剂量组为参照,估计分类变量的hr (95% ci)。

  • 采用 Kaplan-Meier曲线和log-rank检验 评估风险评分的风险分层值。
5.所有统计 分析均为双侧检验,并使用R版本4.2.2进行。
本研究内容非常丰富,研究本身也很具有临床意义。并且设计严谨,研究步骤展示的非常详细,逻辑清晰,把整个研究都讲清楚了,推荐大家去看一下原文!

THE END