ulrb:机器学习革新稀有生物圈定义

洞悉微观宇宙:ulrb 工具借助机器学习革新稀有生物圈定义

图片

微生物的世界浩瀚无垠,其种类之繁多,蕴藏着难以估量的遗传信息。在这个微观宇宙中,稀有生物圈(rare biosphere)扮演着至关重要的角色——它不仅是维系生态系统抵抗力与复原力的关键,也是宿主相关微生物共生关系的潜在源泉。

传统上,研究人员通常依赖等级丰度曲线(Rank Abundance Curve, RAC)对微生物进行排序,或通过设定固定的丰度阈值来界定稀有生物圈。然而,这种基于阈值的方法往往缺乏灵活性,难以适应不同研究场景和数据集的内在差异,导致研究结果的可比性受限。

为了突破这一瓶颈,来自波尔图大学(Universidade do Porto)等机构的科研团队另辟蹊径,开发并开源了一款名为 ulrb 的创新软件。这款工具独具匠心之处在于,它运用无监督机器学习技术,能够智能地将微生物群落划分到最适宜的丰度类别中。这项重要成果以“Definition of the microbial rare biosphere through unsupervised machine learning”为题,已于 2024 年 4 月 2 日发表在国际知名期刊《Communications Biology》上。

图片

论文链接:https://www.nature.com/articles/s42003-025-07912-4

ulrb 的核心算法与实现细节

ulrb 的核心在于其采用的无监督学习方法,具体而言是基于 k-medoids 模型分区算法(Partitioning Around Medoids, PAM)。该算法的目标是将数据集中的对象(在这里是微生物分类单元)划分到若干个聚类中,使得同一聚类内的对象彼此更为相似,而不同聚类间的对象差异显著。

k-medoids 工作原理简述

k-medoids 的运作方式可以概括为:

  1. 初始化: 算法首先会从数据集中随机选取 k 个对象作为初始的中心点(medoids)。这些中心点是实际存在的数据点,而非像 k-means 那样是虚拟的质心。
  2. 分配: 接着,将其余每个对象分配给与其距离最近的中心点所在的聚类。
  3. 迭代优化: 随后,算法会尝试用非中心点对象替换当前的中心点,并重新计算聚类的总成本(例如,聚类内对象到其中心点的距离总和)。如果替换能减少总成本,则更新中心点。

这个选择-分配-优化的迭代过程会持续进行,直至中心点不再发生变化,最终目的是最小化聚类内各分类单元与其对应中心点之间的距离之和,从而形成最优的聚类结构。

图片
图 1:k-medoids 算法工作流程示意图。(图源:论文)

R 软件包 ulrb:便捷的分析工具

研究团队将 ulrb 开发为一个 R 语言软件包,利用 devtools 功能构建,用户可以方便地进行安装和使用。该软件包不仅内置了应用 PAM 算法的核心功能,还整合了数据预处理(如准备丰度表)、统计验证以及数据可视化等一系列辅助工具,为研究者提供了一站式的解决方案。

在 ulrb 中,PAM 算法负责将所有微生物分类单元划分到用户预先定义的 k 个聚类中。值得一提的是,用户除了可以使用软件的默认参数外,还可以根据研究需求自主定义丰度类别的数量。这意味着研究者可以超越传统的简单分级(如按数量级1、2、3、4划分),采用更具生态学意义的描述,例如“稀有”、“常见”、“优势”等术语,来刻画微生物的丰度分布特征,使分类更贴合实际研究的语境和需求。

然而,研究团队也提醒道,尽管这种灵活性为适应特定数据集(例如,追求最佳轮廓系数)提供了便利,但如果不同研究采用了不同数量的丰度分类,那么研究结果之间的直接可比性可能会受到一定影响。因此,在追求个性化分类的同时,也需要考虑研究间的横向比较问题。

为了方便用户快速上手,开发团队还贴心地提供了软件包的详细使用教程和附加功能说明:

教学链接:https://pascoalf.github.io/ulrb/index.html

聚类效果评估与多场景验证

核心评估指标:轮廓分数

为了客观评估 ulrb 产生的聚类效果,该软件包内置了三个主要的统计指标。其中,**轮廓分数(Silhouette Score)**是评估聚类质量的核心依据。轮廓分数会为每一个分类单元计算一个值,该值综合了该单元与其所属聚类内其他成员的相似度(内聚性)以及与最近邻聚类成员的相异度(分离度)。

  • 轮廓分数值域在 [-1, 1] 之间。
  • 值越接近 1,表明该样本点聚类效果越好,即其与自身簇内其他点足够近,同时与其他簇的点足够远。
  • 值接近 0,表明该样本点可能位于两个簇的边界上。
  • 值为负,则表明该样本点可能被分到了错误的簇。

因此,一个较高的平均轮廓分数通常意味着聚类结果更优,即聚类内部紧密而聚类之间界限分明。这为比较不同聚类方法或参数设置下的效果提供了量化标准。

图片
图 2:轮廓分数所能揭示的聚类信息示意图。(图源:论文)

广泛的数据集验证

为了证明 ulrb 的普适性和鲁棒性,研究团队在多种类型的数据集上对其性能进行了全面测试。这些数据集涵盖了不同的系统发育单元、不同的扩增子测序区域、不同的样本规模以及多样的测序深度,充分模拟了微生物生态学研究中可能遇到的各种复杂情况。在这些差异化的环境中,ulrb 均表现出良好的微生物分类能力。

洞察“条件性稀有”微生物与科研可重复性

追踪动态变化

通过 ulrb 对丰度类别的动态划分,研究者可以更深入地洞察微生物种群的生态位。例如,某些微生物种群可能并非恒定稀有或恒定丰富,而是在不同环境条件或时间点下,其丰度在“稀有”与“丰富”状态间波动,这类种群可被定义为“条件性稀有”(conditionally rare)。这种动态变化对于理解微生物的生态策略和环境适应性具有重要意义。

目前版本的 ulrb 尚不直接支持对这类稀有性类型的自动识别和计算,但研究人员可以在获得 ulrb 定义的丰度分类后,手动追踪和分析特定种群在不同条件下的丰度变化。研究中,团队便利用珊瑚微生物数据集,在 97% 的相似性阈值下完成了丰度划分,并进行了此类分析。

注重科研的可重复性

秉持开放科学的原则,该研究中所有数据的生成均使用 R 软件完成。为了确保研究结果的可重复性和透明度,所有相关的原始数据和分析代码均已通过 GitHub 公开。

开源链接:https://github.com/pascoalf/ulrb

ulrb 的潜力:超越微生物,赋能生态学研究

该研究的主要贡献者之一,来自CIIMAR(海洋与环境研究跨学科中心)的博士候选人 Francisco Pascoal 在接受采访时分享了他们令人振奋的发现:ulrb 的应用潜力并不仅限于微生物领域。研究团队的测试结果表明,该工具同样能够有效处理非微生物数据,例如分析树木普查数据集中的物种丰度分布。

这种出色的多功能性预示着 ulrb 将有望成为生态学研究领域的一款强大工具。凭借其精准、自适应的特性,以及改进生物多样性评估的能力,ulrb 所代表的分析方法有望在更广泛的生态学研究中得到推广和应用,为揭示不同生态系统中的物种分布规律和动态变化提供新的视角。

结语:迈向标准化的稀有生物圈分析

相较于传统的基于固定阈值的方法,ulrb 提供了一种更为一致和可靠的途径来解读微生物稀有生物圈,尤其是在面对不同测序策略和生物信息学流程时,其优势更为凸显。此外,它还支持对特定分类群进行手动追踪和深入分析。

综上所述,凭借其自适应性、客观性和广泛适用性,ulrb 在区分不同稀有度等级方面展现出卓越性能,为实现微生物稀有生物圈分析的标准化带来了巨大潜力,有望成为生态学家手中的一件利器。