AI 新突破:MD3MD 精准生成三维药物分子

解锁新药发现:MD3MD 模型开启三维分子设计新篇章

图片

编辑 | 白菜叶

在新药研发的征途上,找到那些具有理想特性的候选分子,将它们送入临床试验,是研究者们孜孜以求的目标。然而,传统路径往往布满荆棘——耗时漫长、成本高昂,且成功率不尽人意。

幸运的是,人工智能(AI)特别是深度学习技术的崛起,为这一领域带来了曙光。通过数据驱动的方式,AI 模型能够高效探索广阔无垠的化学空间,显著加速了药物发现的进程。

在众多 AI 技术中,三维(3D)分子生成扮演着至关重要的角色。它能够直接构建出与真实药物分子在空间结构上高度相似的构象,这对于精准的药物设计至关重要。然而,当前主流方法常常受限于点云表示或过于简化的原子间相互作用模型,难以精准捕捉复杂的三维分子结构信息,这无疑限制了其在药物设计中的应用潜力。

MD3MD:基于多尺度图与扩散模型的新思路

针对上述挑战,来自**西安电子科技大学(Xidian University)**的研究团队,从几何深度学习中汲取灵感,独辟蹊径地提出了一种名为 MD3MD(Multiscale Graph Equivariant Diffusion Model) 的创新方法,旨在更全面、更精准地表征三维分子结构。

图片

MD3MD 的核心思想在于其多尺度策略,这一策略巧妙地模拟了分子内部不同距离尺度下的相互作用:

  1. 多尺度图构建:研究首先通过计算分子内原子间的距离,并设定不同的距离阈值范围(例如,区分近距离的共价键作用和中远距离的非共价作用),巧妙地将一个分子构象“分解”为多个不同尺度的三维分子图。这种做法能够更精细地捕捉分子内部复杂的结构特征,并准确模拟化学键的形成过程以及更广泛的相互作用。
  2. 加权相互作用:在分子生成过程中,模型为不同尺度的图赋予不同的权重。这种设计的巧妙之处在于,它允许模型灵活地调控不同距离尺度下原子间相互作用的重要性,从而更真实地反映分子内部复杂的力场环境,让模型理解哪些相互作用在结构的形成中更为关键。
  3. 扩散过程引导:整个多尺度图框架被用来指导一个扩散生成过程(diffusion process)。扩散模型擅长从噪声中逐步生成结构化数据,结合多尺度图的引导,能够确保最终生成的三维分子不仅结构合理,而且质量上乘。

性能卓越:实验结果验证 MD3MD 优势

为了全面评估 MD3MD 的能力,研究团队在多个标准数据集和任务上进行了详尽的测试,涵盖了无条件生成和条件生成两大类场景。

图片
图示:在 QM9 数据集上进行无条件分子生成的可视化效果。(来源:论文)

实验结果令人信服地展示了 MD3MD 的优越性:

  • 无条件生成表现突出:在不需要特定属性约束的生成任务中,MD3MD 优于现有的多种方法。它不仅能生成实用性更强的分子,还展现出更高的创新性——能够发现新颖的化学结构。更重要的是,生成的分子在原子和分子层面都具有更高的稳定性,这对于后续的实验验证至关重要。
  • 条件生成精准可控:当设定特定目标属性(例如,期望的溶解度、结合亲和力等)进行分子生成时,MD3MD 同样表现出色,能够生成更符合预期特性的分子,显示出其在定向分子设计中的潜力。
  • 学习领域模式并生成创新结构:可视化分析(如下图所示的分布比较)进一步证实,MD3MD 能够有效学习特定化学领域的内在规律。它生成的分子虽然与训练数据集中的分子存在显著差异(体现了创新性),但在关键的化学统计分布上(如原子数、键数、环数、原子间距离等)与原始数据保持了高度一致性,表明其生成结果的化学合理性
  • 探索化学空间,避免模式坍塌:该方法能够广泛探索化学可能性空间,生成高度多样化的分子群体,有效避免了许多生成模型中常见的“模式坍塌”(即生成结果高度雷同、缺乏新意)问题。

图片
图示:生成的分子与 QM9 数据集在原子数、键数、环数和原子间距离分布上的比较。(来源:论文)

一个有趣的发现:非共价作用力的价值

值得一提的是,研究人员还进行了一项有趣的尝试:在模型中明确地纳入除共价键之外的所有原子间相互作用力(例如范德华力、氢键等),并以此来指导分子的生成过程。他们观察到,在某些特定场景下,这种更全面的相互作用表征方法,相比于仅考虑所有化学键的简化模型,反而能够产生性能更优的分子。这一发现提示我们,对分子内部各种作用力的精细建模,可能是进一步提升三维分子生成质量的关键所在。

挑战与展望:未来研究方向

尽管 MD3MD 取得了显著进展,但研究者也坦诚地指出了当前模型的一些局限性以及未来的改进方向:

  • 复杂条件引导:目前的方法在处理非标量值条件(例如,基于已知蛋白质靶点或配体结构进行分子生成)的引导生成方面探索尚浅。如何有效地将这类复杂的结构信息融入生成过程,将是未来研究的一个重要拓展方向。
  • 可解释性提升:虽然模型效果很好,但深入理解其内部工作机制——即模型是如何利用条件信息来指导分子生成过程的——仍然是一个挑战。提升模型的可解释性,对于增强用户信任、指导模型优化以及在实际药物设计与发现场景中更有效地应用 MD3MD 至关重要。
  • 模型复杂性与计算资源:扩散模型本身计算复杂度较高,加之处理大规模分子数据集(如 GEOM)的挑战,以及现有硬件资源的限制,使得当前研究仅尝试将分子图划分为三个尺度。未来,研究人员计划探索如知识蒸馏(knowledge distillation)等模型压缩技术,期望在降低模型复杂度和计算需求的同时,能够更深入地挖掘和利用数据集中更精细的原子相互作用信息。这无疑是一个充满挑战但前景广阔的研究课题。

结语

总而言之,MD3MD 模型凭借其新颖的多尺度图等变扩散框架,在生成高质量、多样化且具有创新性的三维分子方面,相较于现有方法展现出了明显的优势。这项工作有效地推动了计算辅助分子设计领域的发展,为加速发现具有潜力的新药候选分子提供了强大的新工具。

该研究成果以「Multiscale graph equivariant diffusion model for 3D molecule design」为题,已于 2025 年 4 月 16 日发表在国际知名期刊《Science Advances》上。

论文链接https://www.science.org/doi/10.1126/sciadv.adv0778