GraphATC:毫秒级AI精准预测药性,加速新药研发
GraphATC:毫秒级AI精准预测药性,加速新药研发
未知变量新药研发的福音:GraphATC 以毫秒级速度精准预测药物药性
新药的诞生之旅,从最初的蓝图构思,历经实验室的反复研磨、严苛的临床试验,直至最终惠及患者,往往是一场耗资巨大且旷日持久的征程——平均而言,这需要投入超过 26 亿美元的巨额资金,以及 10 到 15 年的漫长时光。更为严峻的是,随着研发进程的深入,成本更是水涨船高。
试想,倘若一款并不合适的候选药物贸然进入临床试验阶段,不仅会因缺乏预期疗效而白白消耗医患双方宝贵的时间与精力,其潜在的未知副作用更有可能直接威胁到患者的生命安全。
因此,如何在药物研发的黎明阶段,就能迅速且精准地洞察其潜在的治疗价值,便成为了当前药物设计与筛选领域亟待攻克的关键瓶颈。
近日,一则令人振奋的消息传来:来自香港理工大学、四川大学及鹏城实验室的科研团队联手攻关,在国际知名期刊《Briefings in Bioinformatics》上发表了其最新研究成果——GraphATC。
这一新方法巧妙地运用了原子级别的图神经网络技术,能够在短短 1.53 毫秒之内,就对一种药物的ATC(Anatomical Therapeutic Chemical)药性做出精准预判(例如,判断该药物是否适用于治疗呼吸系统疾病或心脑血管疾病等)。这无疑为药物筛选与开发铺设了一条高效的技术蹊径,有望从源头上规避因盲目推进临床试验而可能引发的种种风险。值得一提的是,相关的数据集与代码均已开放获取!
该研究的作者团队汇聚了三家顶尖机构的智慧,包括张翁渔、田奇、曹溢、范文琦、蒋冬梅、王耀威、李青以及魏骁勇。其中,魏骁勇教授担任本文的通讯作者。
- 期刊主页:https://doi.org/10.1093/bib/bbaf194
- 数据集和代码:https://github.com/lookwei/GraphATC
- 文章 PDF:https://academic.oup.com/bib/article-pdf/26/2/bbaf194/63012495/bbaf194.pdf
- PaperWithCode:https://paperswithcode.com/dataset/atc-graph
解读 ATC 药物分类系统
ATC(Anatomical Therapeutic Chemical)分类系统,是由世界卫生组织(WHO)精心构建并推广的一套全球通用的药物分类编码标准。它如同一部药物的“身份证体系”,依据药物主要作用的解剖部位或生理系统、治疗效果、药理学机制及其化学属性,将药物的活性成分系统地划分入五个层级。具体而言:
- 第一级:指向药物作用的解剖学部位或系统(如 N 代表神经系统)。
- 第二级:明确药物的治疗学主要类别(如 N02 代表止痛药)。
- 第三级:阐述药物的药理学亚组(如 N02B 代表其他止痛药及退热药)。
- 第四级:定义药物的化学类别(如 N02BE 代表苯胺类衍生物)。
- 第五级:特指具体的化合物(如 N02BE01 代表对乙酰氨基酚)。
以我们熟知的对乙酰氨基酚(商品名如泰诺、扑热息痛的主要成分)为例,在新冠疫情期间,它作为一种常用的退热镇痛药,有效缓解了许多患者的症状。其 ATC 代码为 N02BE01,清晰地标示了它在整个药物体系中的位置与特性。
当前药物分类方法面临的重重挑战
尽管 ATC 系统为药物分类提供了框架,但在实际应用,尤其是借助计算方法进行自动分类时,仍面临诸多难题:
- 数据集老化与覆盖面不足:目前广泛使用的一些主流药物分类数据集,往往未能及时收录近年来新获批上市的药物。更重要的是,它们大多只包含了 ATC 系统的第一级(解剖学大类)标签,这种粗略的分类难以满足现代药物精细化研发对于深度信息的需求。
- 深层分类的“数据饥饿”困境:ATC 系统中,从第二级到第五级代表了更为精细和特异的药物属性。然而,这些深层分类标签对应的数据往往非常稀疏,导致难以训练出稳定且有效的预测模型,这已成为药物计算建模领域的一大瓶颈。
- 分子表示能力的局限性:传统的药物表示方法,如 SMILES 线性化字符串或预先定义的分子指纹,虽然简便,但在捕捉复杂三维分子结构中的拓扑关系以及原子间的相互作用方面显得力不从心,难以充分表达药物的结构-活性关系。
图 1:GraphATC 框架图,清晰展示了其工作流程与核心模块。
GraphATC:革新药物分类的智能引擎
GraphATC 的核心突破,在于其独辟蹊径地将药物的分子结构巧妙地抽象和建模为一种图(Graph)结构。在此基础上,它运用强大的**图神经网络(GNN)**来深入挖掘原子与化学键之间复杂的高阶关联信息。研究团队主要在以下两大关键方向上进行了系统性的创新与改进:
1. 构建更全面、更细致的 ATC 分类数据集
为了克服现有数据的局限,团队首先着手构建了一个更为全面和与时俱进的 ATC 药物数据集。他们广泛搜集了来自多个国际权威生物医药数据库(例如 KEGG、PubChem、ChEMBL 等)的最新药物信息。通过一系列严格的数据清洗、交叉校验和信息融合流程,最终成功构建了一个目前覆盖范围最广、数据最为完整的 ATC-GRAPH 数据集(如图 1A 所示)。
图 2:ATC-GRAPH 与现有主流数据集在数据量及覆盖层级上的对比,凸显其显著优势。
如图 2 的对比所示,这个全新的 ATC-GRAPH 数据集不仅在药物种类和数量上实现了显著扩充,更开创性地完整覆盖了世界卫生组织 ATC 体系的所有五个层级。这意味着,从药物作用的宏观解剖系统到其具体的微观化学成分,每一种药物都拥有了完整且准确的多级分类标签。
这项艰巨而细致的数据整合工作,不仅有效解决了现有数据集普遍存在的“数据陈旧”、“标签缺失”和“覆盖不全”等痛点,也极大地提升了数据集的时效性和代表性,为后续训练高精度药物分类模型奠定了坚实的数据基石。
2. 打造更精准、更具洞察力的药物表示形式
传统的 SMILES 序列在表达复杂分子结构时存在固有的“线性”局限性。为了突破这一瓶颈,GraphATC 选用了表达能力更强的图神经网络进行建模(如图 1B 所示)。不仅如此,团队还针对不同类型药物的结构特性,引入了以下精巧的设计:
- 引入“虚拟原子”与“虚拟化学键”优化聚合物表示:如图 1C 所示,对于结构复杂的聚合物类药物,模型在不同结构单元的连接点巧妙地引入了“虚拟原子”和“虚拟化学键”作为信息传递的桥梁。这种设计使得模型能够更有效地捕捉构成聚合物的各个单体之间的相互作用关系。实验结果令人鼓舞,该机制使得聚合物类药物的分类准确率提升了高达 14.74%。
- 采用基于 RNN 的子图融合机制处理多成分药物:如图 1D 所示,针对由多种不同化学成分组成的药物(例如复方制剂),GraphATC 创新性地利用循环神经网络(RNN)对各个组分的图表示进行加权聚合。模型能够根据每个组分的分子量大小及其结构复杂度,自适应地调整该组分对药物整体分类结果的贡献权重。相较于简单的平均融合策略,这种智能的子图融合方法在多成分药物的分类任务中,将准确率提升了 14.46%。
实验结果:性能卓越,洞察深刻
研究团队在三个不同的标准数据集上,分别针对 ATC 系统的第一级和第二级分类任务,对 GraphATC 的性能进行了系统而严格的评估。结果显示,GraphATC 在所有测试场景中均取得了当前最佳(State-of-the-Art, SOTA)的性能表现,具体数据如表 1 和表 2 所示。
表 1:GraphATC 与其他前沿方法在 ATC 第一级分类任务上的性能比较。最佳结果已用粗体标出。
表 2:GraphATC 与其他前沿方法在 ATC 第二级分类任务上的性能比较。最佳结果已用粗体标出。
更值得关注的是,GraphATC 模型在处理复杂药物结构时所展现出的结构关注机制 (attention mechanism) 表现尤为出色:
聚合物药物的关注点优化:在聚合物药物的分析中,引入虚拟原子与虚拟化学键后,模型的“注意力”显著地从原先主要集中在单个结构单元的中心区域,成功拓展到了结构单元之间的关键连接位点,这更符合化学直觉(如图 3 所示)。
图 3:在聚合物药物中加入虚拟原子与虚拟化学键后,模型注意力分布图的变化。
多成分药物的关注点扩散:在处理多成分药物时,通过引入基于 RNN 的子图融合机制,模型的注意力不再仅仅局限于分子量较大或结构较显眼的子成分,而是能够更均衡地扩散并关注到药物中多个不同的活性子成分(如图 4 所示)。
图 4:在多成分药物中引入子图融合机制后,模型注意力分布图的变化。
总结与展望:AI 赋能药物研发新篇章
GraphATC 的问世,为我们提供了一个以图结构为核心,实现高效、精准药物多级分类的创新可行框架。其主要贡献可以概括为:
- 构建了当前覆盖最广、层级最全的 ATC-GRAPH 多级药物分类数据集,为领域内研究提供了宝贵资源。
- 首次成功将 ATC 药物分类任务的粒度从宏观的第一级有效扩展到了更为精细的第二级,提升了分类的实用价值。
- 通过引入创新机制,显著优化了模型对复杂药物(如聚合物、多成分药物)结构的精确表达与理解能力。
- 在实际应用中,实现了药物分类性能(准确率)和推理速度(效率)的双重优化,展现了巨大的应用潜力。
这项研究不仅为后续的药物发现、药效预测、新型分子设计与生成等关键任务提供了重要的思路借鉴和参考框架,更为人工智能辅助药物研发(AI for Drug Discovery, AIDD)领域构建了更为坚实的技术基石。我们有理由畅想,在不远的未来,当某种新型疾病突袭人类时,AI 或许能够在极短的时间内,从浩如烟海的已知或候选药物中,迅速锁定那把开启治愈之门的“钥匙”。
GraphATC 的数据集和相关代码均已在 GitHub 开源,诚邀各位同行与研究者下载试用,共同推动药物研发领域的进步!








