DISGENET v26.2新版本发布-基因组学-康昱盛

DISGENET v26.2新版本发布

科学知识并非一蹴而就。它是在日复一日、年复一年的研究中，从一个研究、一个数据源中慢慢积累而来。我们关注的不仅是今天的证据说明了什么，更是这些证据如何逐步建立，以及在这个演进过程中，我们能在多大程度上信任它。DISGENET v26.2 正是围绕这一核心思想构建的。

本次更新带来一项重大升级：历史评分，让你能够追溯基因-疾病证据随时间的演变。此外，新版本还引入了一个归一化评分，使整个数据集上的排序更加精确、可比。同时，新版本还丰富了关联类型的分类、增加了临床证据的新数据属性，并新增了 ChEMBL 作为推断数据源。

更智能的评分：精确排序与时间证据

DISGENET 评分是您筛选基因-疾病关联的核心信号。在 v26.2 版本中，这个信号变得更加精准——无论是对当前关联的排序，还是对过去某一时间点证据的重构。

更精确的排序：归一化评分

DISGENET 评分原本设计在 0 到 1 之间。但在实践中，随着数据源和证据类型持续增加，部分关联累积了过多支持证据，导致其原始分数超过 1 的上限，不得不将分数限定在这个上限之下。结果，高证据级别的关联被人为压缩，难以分辨那些拥有极强支持的靶点与仅具良好支持的靶点。

归一化评分解决了这一问题。它采用最小值-最大值归一化方法，根据数据集中实际观测到的最小值和最大值重新调整所有分数。观测到的最低分映射为 0，最高分映射为 1，每个关联按比例分布其间——没有压缩，没有上限，顶端也不再出现人为的得分并列。

原来的 DISGENET 评分去哪儿了？

原始的 DISGENET 评分依然可用，但现已取消 1 分的上限。获得极强支持的关联可以突破过去的历史上限，分值最高可达 1.55。这保留了证据的全范围，使高度支持的关联之间能够实现更大程度的区分。

对于进行靶点优先排序的团队来说，这一点至关重要：在资源有限的情况下对候选靶点进行排序时，排序信号的精细度直接影响哪些靶点会被推进。归一化评分保留了关联之间的真实差异，为您提供更清晰、更可靠的排序依据。归一化评分可通过网页界面、REST API (v1.9.5) 和 R 语言包 (v1.2.7) 获取。

穿越证据时空：历史评分

当前的 DISGENET 评分根据今天已知的所有信息，告知您一个基因-疾病关联的支持度有多高。但有时更重要的问题是：过去的证据是什么样的？

历史评分在整个 DISGENET 评分框架中引入了一个时间筛选功能。通过选择一个特定的年份或年份范围，它将仅使用那个时间点上可用的证据来重新计算基因-疾病关联分数——这些证据包括：专家数据库、文献、推断数据、临床试验和动物模型。

其计算机制反映了生物医学证据的复杂性：

• 对于精选来源（curated sources），证据的可用性取决于其出版日期，以及可用的特定证据时间戳（该时间戳表明记录被纳入源数据库的时间）。

• 当出版日期和特定证据时间戳同时都有时，取两者中最早的日期作为证据的可用日期。

• 文献计数会动态重新计算，仅反映当时可用的出版物。

• 针对所选时间段，加权分数会被完整重新计算。

这项功能在多个实际场景中都非常重要。在靶点验证中，你可以将某个候选靶点与某个里程碑式研究或重大技术转变之前的已知信息进行比较，从而揭示该靶点之前是否已有汇聚证据的支持，还是主要依赖于一项突破性研究的推动。在生物标志物研究中，你可以追踪证据积累的势能在特定时期内是如何累积、趋于平稳或加速增长的。在临床转化决策中，你可以区分成熟的、有据可查的基因-疾病关联与新兴的、快速涌现的关联。对于人工智能/机器学习，历史评分能够实现时间感知模型的训练和验证，让你仅在特定年份之前可用的证据上训练模型，并客观检验它们能否预测哪些基因-疾病关联在未来会得到加强。这为发现算法提供了一个更现实的基准测试。历史评分可通过网页界面、REST API 中新增的专用端点以及 R 语言包中的新函数获取。

更丰富的关联类型：更精确的机制图景

了解某个基因与某种疾病有关仅仅是开始。了解它们之间如何关联——这种关系是与基因表达的改变、存在致病突变、药物基因组学相互作用还是治疗靶点有关——是实现机制解读和假设驱动型发现的关键。v26.2 版本中新的机制模型将基因与变异-疾病关联划分为 13 种不同的关联类型：

• 表达改变 (Altered Expression)

• 生物标志物 (Biomarker)

• 拷贝数变异 (CNV)

• 致病突变 (Causal Mutation)

• 细胞标志物 (Cell Marker)

• 表观基因组改变 (Epigenomic Alterations)

• 融合基因 (Fusion Gene)

• 非编码RNA调控 (Non-coding RNA Regulation)

• 药物基因组学 (Pharmacogenomics)

• 翻译后修饰 (Post-translational Modification)

• 保护性突变 (Protective Mutation)

• 易感突变 (Susceptibility Mutation)

• 治疗靶点 (Therapeutic Target)

扩展证据层：ChEMBL 与丰富的临床数据

新增 ChEMBL 作为推断数据源

DISGENET v26.2 将 ChEMBL 添加到其推断数据源中。源于 ChEMBL 的关联是通过结合药物-适应症和药物-靶点关系构建的：当一种针对特定疾病的药物已知其靶向某个基因时，便推断出该基因与该疾病之间存在关联。这些关联被归类为“治疗靶点”关联类型。这扩展了 DISGENET 内部的治疗信号层，使得识别与某种疾病有现有药理学相关性的基因变得更容易——这是药物重定位和靶点验证工作流程的核心输入。