首页 > 人工智能(Artificial Intelligence) > 深度学习(Deep Learning)

目标基因测序+深度学习搞定肿瘤类型实现精准诊断

肿瘤类型的复杂性给诊断带来了挑战。由于肿瘤的多样性和异质性,不同类型的肿瘤可能在组织学、形态学、分子特征上有很大差异,这使得准确诊断成为一项复杂的任务。因此开发肿瘤预测模型是当前的主要任务。


第一,该研究解决了一个重要的临床问题,肿瘤类型的准确预测对于指导癌症治疗决策至关重要。

第二,该研究设计合理,使用了大规模的临床数据集,开发了一个高度准确和有临床应用价值的模型。

第三,该研究使用了最先进的方法,深度学习和超参数集成,在有限的基因面板数据上达到了全基因组测序模型的表现水平。

第四,该模型对38种癌症类型具有广泛的适用性,涵盖了97%的实体瘤样本。该模型可以整合非基因组临床信息进行预测,扩展了应用范围。在未知原发肿瘤样本上表现优异,可以指导临床治疗决策。

第五,该模型已经在临床中实时使用,具有明确的临床转化应用价值。为基于肿瘤基因组信息进行肿瘤类型预测提供了新的策略和方法。(ps:小云这里可以获取最新、最热门的生信研究方向,还有许多可以重复使用的创新思路。如果你有兴趣,可以扫码联系小云做思路设计或定制生信分析哦,我们将提供最适合您的发文方案。)    

题目:基于靶向临床基因组测序数据的肿瘤类型预测的深度学习模型

杂志:Cancer Discovery

影响因子:IF=29.1

发表时间:2024年3月

研究背景

肿瘤类型是指导癌症临床治疗决策的关键,但基于组织病理学的诊断仍然具有挑战性。肿瘤中的基因变异高度与肿瘤类型相关,并且在基因组特征上训练的肿瘤类型分类器也已被探索,但最准确的方法在临床上不可行。由于它们依赖于从全基因组测序中导出的特征,或者只能预测有限种类的癌症。该研究基于用于临床目标基因测序的大规模数据集,开发了Genome-Derived-Diagnosis Ensemble (GDD-ENS),这是一种使用深度神经网络对固定面板数据进行肿瘤类型预测的超参数集成模型。

研究思路    

主要结果

1.临床队列研究与集成神经网络模型的发展

为了开发一种基于临床目标基因测序数据进行肿瘤类型预测的模型。作者收集大规模的MSK-IMPACT临床标本数据集。从MSK-IMPACT数据中提取多类基因组特征。使用超参数集成的多层感知器模型进行训练。研究开发了GDD-ENS模型,可以对38种常见癌症类型进行预测。GDD-ENS模型可以提供每个预测的置信度估计。GDD-ENS可以报告每个预测的前10个重要特征。总体来说,Figure 1展示了GDD-ENS模型的开发过程和应用。    

Figure 1. Overview of GDD-ENS model

2.分类精度

为了与其他模型评估GDD-ENS的性能。作者收集多个全基因组模型的癌症类型数、准确率、可预测比例等指标。与GDD-ENS的相关指标进行比较。研究发现GDD-ENS包含更多的癌症类型(38种)。GDD-ENS的高置信预测准确率与全基因组模型相当(92.7%)。GDD-ENS可以预测更大比例的样本(97%)。总之,Table 1证明了尽管GDD-ENS仅使用有限的基因面板数据,但其性能与全基因组模型相当,具有广泛的适用性。这支持了模型的高效性。    

3.预测特定特征的重要性

为了评估GDD-ENS模型在不同癌症类型上的预测性能,分析模型的标准, 解释模型预测的特征重要性。作者使用混淆矩阵展示高置信预测的准确率。绘制标准板面比较单模型和集成模型。使用SHAP方法分析特征对正确预测的重要性。研究发现GDD-ENS在大多数癌症类型上具有很高的准确率。集成模型的标准优于单模型。突变和拷贝数改变是正确预测的最重要特征。总之,Figure 2全面评估了GDD-ENS的性能,验证了方法的有效性,为模型的临床应用提供了支持。    

Figure 2. GDD-ENS performance across cancer types

4.排除样本的性能

为了分析GDD-ENS在数据集中未包含的罕见肿瘤类型样本上的预测结果。作者将测试集中1321例罕见肿瘤样本定义为CUP。使用热图展示高置信预测的组织系统分布。研究发现大多数CUP样本得到低置信预测,表明GDD-ENS可以检测出样本的可预测性。66%的高置信CUP预测分布在与真实类型相匹配的组织系统。总之,Figure 3证明了GDD-ENS可以对罕见未知肿瘤进行有效地预测,为这些样本的临床诊断提供有价值的参考。这进一步验证了模型的泛癌适用性。    

Figure 3. GDD-ENS performance on excluded cancer samples

5.将额外的临床数据纳入分类    

为了通过整合临床信息提高模型预测的准确性。作者构建基于转移部位和组织病理学的先验分布。使用朴素贝叶斯分类器整合先验信息进行预测校正。研究发现结合两种先验信息可以提高准确率和高置信预测的比例。案例研究证明了先验信息可以纠正错误预测。总之,Figure 4证明了通过整合非基因组信息可以提升GDD-ENS的预测性能,为模型的临床优化提供了策略。

Figure 4. Adaptable prior distribution enables the incorporation of nongenomic information for enhanced predictions

为了评估先验信息对模型预测的影响。作者使用转移部位、组织病理学及两者结合的先验信息,对测试集的相关子样本进行评估。研究发现三种先验信息单独使用时,准确率和高置信预测比例均有不同程度提高。两种先验信息结合使用时,准确率和高置信预测比例提高更明显。总之,Table 2证明了非基因组信息的先验可以提高GDD-ENS的性能,为临床优化提供了有力的支持。这进一步拓展了模型的适用场景。    

6.CUP分析

为了在CUP样本上评估GDD-ENS的预测表现,分析预测结果对识别可靶向治疗的价值。作者展示CUP样本的GDD-ENS预测分布,比较可靶向治疗患者人数的变化,概述最常见的可靶向突变。研究发现45.6% CUP样本得到高置信预测,27.8%超过95%置信度。高置信预测使可靶向患者比例增加2.4倍。KRAS G12C是最常见的可靶向突变。总之,这些结果表明GDD-ENS可以有效指导CUP的诊断和治疗决策,具有重要的临床应用价值。    

Figure 5. GDD-ENS predictions on CUP patients can identify targetable alterations

文章小结

这项研究在有限的基因面板数据上开发出与全基因组模型媲美的肿瘤类型预测模型,证明了面板数据的预测能力。使用超参数集成的深度学习方法构建了迄今为止样本量最大、涵盖癌症类型最全面的肿瘤分类模型,提高了适用性。整合了非基因组临床信息进行动态预测,扩展了模型的应用场景。在未知原发肿瘤样本上展示了显著的预测能力。并且模型已实现临床转化,为精准医疗决策提供支持。总体来说,该研究具有明确的创新之处,解决了重要的临床问题,为基因组指导下的肿瘤诊断提供了有价值的新策略和工具。有进一步需要的朋友们可以找小云做设计哦!小云能从研究方向和思路方法上提供全方位的指导。    

             

关闭
感谢您的支持,我会继续努力!
扫码打赏,建议金额1-10元


提醒:打赏金额将直接进入对方账号,无法退款,请您谨慎操作。