技术中心

TECHNOLOGY

DISGENET v26.2新版本发布

科学知识并非一蹴而就。它是在日复一日、年复一年的研究中,从一个研究、一个数据源中慢慢积累而来。我们关注的不仅是今天的证据说明了什么,更是这些证据如何逐步建立,以及在这个演进过程中,我们能在多大程度上信任它。DISGENET v26.2 正是围绕这一核心思想构建的。

本次更新带来一项重大升级:历史评分,让你能够追溯基因-疾病证据随时间的演变。此外,新版本还引入了一个归一化评分,使整个数据集上的排序更加精确、可比。同时,新版本还丰富了关联类型的分类、增加了临床证据的新数据属性,并新增了 ChEMBL 作为推断数据源。


更智能的评分:精确排序与时间证据

DISGENET 评分是您筛选基因-疾病关联的核心信号。在 v26.2 版本中,这个信号变得更加精准——无论是对当前关联的排序,还是对过去某一时间点证据的重构。

更精确的排序:归一化评分

DISGENET 评分原本设计在 0 到 1 之间。但在实践中,随着数据源和证据类型持续增加,部分关联累积了过多支持证据,导致其原始分数超过 1 的上限,不得不将分数限定在这个上限之下。结果,高证据级别的关联被人为压缩,难以分辨那些拥有极强支持的靶点与仅具良好支持的靶点。

归一化评分解决了这一问题。它采用最小值-最大值归一化方法,根据数据集中实际观测到的最小值和最大值重新调整所有分数。观测到的最低分映射为 0,最高分映射为 1,每个关联按比例分布其间——没有压缩,没有上限,顶端也不再出现人为的得分并列。

1781676858781541.jpg

原来的 DISGENET 评分去哪儿了?

原始的 DISGENET 评分依然可用,但现已取消 1 分的上限。获得极强支持的关联可以突破过去的历史上限,分值最高可达 1.55。这保留了证据的全范围,使高度支持的关联之间能够实现更大程度的区分。

1781676858781541.jpg

对于进行靶点优先排序的团队来说,这一点至关重要:在资源有限的情况下对候选靶点进行排序时,排序信号的精细度直接影响哪些靶点会被推进。归一化评分保留了关联之间的真实差异,为您提供更清晰、更可靠的排序依据。归一化评分可通过网页界面、REST API (v1.9.5) 和 R 语言包 (v1.2.7) 获取。

穿越证据时空:历史评分

当前的 DISGENET 评分根据今天已知的所有信息,告知您一个基因-疾病关联的支持度有多高。但有时更重要的问题是:过去的证据是什么样的?

历史评分在整个 DISGENET 评分框架中引入了一个时间筛选功能。通过选择一个特定的年份或年份范围,它将仅使用那个时间点上可用的证据来重新计算基因-疾病关联分数——这些证据包括:专家数据库、文献、推断数据、临床试验和动物模型。

其计算机制反映了生物医学证据的复杂性:

• 对于精选来源(curated sources),证据的可用性取决于其出版日期,以及可用的特定证据时间戳(该时间戳表明记录被纳入源数据库的时间)。

• 当出版日期和特定证据时间戳同时都有时,取两者中最早的日期作为证据的可用日期。

• 文献计数会动态重新计算,仅反映当时可用的出版物。

• 针对所选时间段,加权分数会被完整重新计算。

1781676858781541.jpg

这项功能在多个实际场景中都非常重要。在靶点验证中,你可以将某个候选靶点与某个里程碑式研究或重大技术转变之前的已知信息进行比较,从而揭示该靶点之前是否已有汇聚证据的支持,还是主要依赖于一项突破性研究的推动。在生物标志物研究中,你可以追踪证据积累的势能在特定时期内是如何累积、趋于平稳或加速增长的。在临床转化决策中,你可以区分成熟的、有据可查的基因-疾病关联与新兴的、快速涌现的关联。对于人工智能/机器学习,历史评分能够实现时间感知模型的训练和验证,让你仅在特定年份之前可用的证据上训练模型,并客观检验它们能否预测哪些基因-疾病关联在未来会得到加强。这为发现算法提供了一个更现实的基准测试。历史评分可通过网页界面、REST API 中新增的专用端点以及 R 语言包中的新函数获取。


更丰富的关联类型:更精确的机制图景

了解某个基因与某种疾病有关仅仅是开始。了解它们之间如何关联——这种关系是与基因表达的改变、存在致病突变、药物基因组学相互作用还是治疗靶点有关——是实现机制解读和假设驱动型发现的关键。v26.2 版本中新的机制模型将基因与变异-疾病关联划分为 13 种不同的关联类型:

• 表达改变 (Altered Expression)

• 生物标志物 (Biomarker)

• 拷贝数变异 (CNV)

• 致病突变 (Causal Mutation)

• 细胞标志物 (Cell Marker)

• 表观基因组改变 (Epigenomic Alterations)

• 融合基因 (Fusion Gene)

• 非编码RNA调控 (Non-coding RNA Regulation)

• 药物基因组学 (Pharmacogenomics)

• 翻译后修饰 (Post-translational Modification)

• 保护性突变 (Protective Mutation)

• 易感突变 (Susceptibility Mutation)

• 治疗靶点 (Therapeutic Target)

1781676858781541.jpg

1781676858781541.jpg


扩展证据层:ChEMBL 与丰富的临床数据

新增 ChEMBL 作为推断数据源

DISGENET v26.2 将 ChEMBL 添加到其推断数据源中。源于 ChEMBL 的关联是通过结合药物-适应症和药物-靶点关系构建的:当一种针对特定疾病的药物已知其靶向某个基因时,便推断出该基因与该疾病之间存在关联。这些关联被归类为“治疗靶点”关联类型。这扩展了 DISGENET 内部的治疗信号层,使得识别与某种疾病有现有药理学相关性的基因变得更容易——这是药物重定位和靶点验证工作流程的核心输入。

1781676858781541.jpg

更多证据语境

DISGENET v26.2 中的证据现在带有显著更多的语境信息。例如:

• 临床试验的人群遗传背景信息(Ancestry)——使您能够评估临床证据的人群覆盖范围,并评估跨遗传背景的普适性。

• 临床试验阶段信息(NCT Phase)——使您能够区分早期探索性信号与晚期、高置信度的临床证据。

1781676858781541.jpg

• 证据条目中增加了临床试验的 NCT 标题和出版物的 PMID 标题,使您无需离开界面即可更轻松地在临床和文献记录中定位信息。

• 为 ClinVar、GenCC 和 GWAS 目录条目增加了研究标识符,提高了原始研究记录的可追溯性。

• 增加了时间戳,其中包含 RGD、CLINVAR、GWASCAT、GENCC 和 CLINGEN 的证据日期。

1781676858781541.jpg

本次版本更新中,所有数据源也都进行了更新。

开始探索

DISGENET v26.2 已正式上线。您可以探索归一化评分以优化您的靶点排名,使用历史评分来追溯您的基因-疾病关联的成熟过程,并通过扩展后的关联类型进行筛选,从而为您的疾病领域构建一个更清晰的机制图景。

• 容器化: Linux 服务器安装程序现采用 Docker 容器化方案,提供统一的安装程序和许可证文件。

• 模型服务器: “ADME QSAR Server”更名为“Model Server”,并支持批量添加自定义模型。

关于DISGENET的访问与授权

DISGENET 目前提供学术访问与商业授权两类方案。

• 学术免费用户检索限制:学术免费账号在平台检索时仅能查看每次搜索的前 30 条结果;若需下载或访问检索到的完整结果,需要升级到付费授权(Standard Licence或 Advanced Licence)。

• 授权模式:DISGENET 采用按年授权(年付)方式,最低授权单位通常以“用户数/年”计,不支持按使用次数或者按月等方式授权。

• 学术免费账户申请请访问该链接自助注册:https://disgenet.com/academic-apply。

1781676858781541.jpg

上海康昱盛是DISGENET数据库在中国的官方代理商,如需咨询和采购该数据库,请联系我们。