Sakana AI发布CTM:借鉴大脑时间维度,开启AI分步思考
Sakana AI发布CTM:借鉴大脑时间维度,开启AI分步思考
未知变量开启「分步思考」新范式。
人工智能的新篇章:借鉴大脑,引入时间维度
在科学界,一个普遍的认识是:即便当前最尖端的人工智能(AI),在性能和效率上仍难以与结构复杂、运作高效的人类大脑相提并论。
为了推动人工智能领域的发展,研究者们常常将目光投向大自然,汲取灵感。无论是通过模拟进化来融合模型、为语言模型演化出更优的记忆机制,还是探索人工生命的广阔空间,都是这一思路的体现。虽然人工神经网络(ANNs)近年来驱动了AI取得瞩目成就,但它们本质上仍是生物神经网络的一种简化模拟。这就引出了一个关键问题:我们能否通过融入生物大脑的关键特性,将人工智能的能力与效率推向一个全新的高度?
一群研究者决定从一个认知科学的核心要素——时间——入手,进行全新的探索。
就在最近,由Transformer架构的作者之一 Llion Jones 联合创办的 Sakana AI 公司,发布了一项名为**「连续思维机器」(Continuous Thought Machine, CTM)的创新成果。这是一种新颖的人工智能模型,它将神经元活动的同步性**作为其核心推理机制。可以将其视为一种新型的人工神经网络,巧妙地利用神经元动态之间的同步来执行任务。
- 了解更多 CTM:
与传统的、主要关注神经元激活状态(即是否“激发”)的人工神经网络不同,CTM 在更精细的层面上运作,它利用了神经元活动的时间信息。这种设计使得 CTM 能够展现出更为复杂的神经行为和决策过程。这一核心创新赋予了模型一种逐步“思考”问题的能力,使其推理过程不仅更接近人类思维方式,也具有了更好的可解释性。
初步研究结果显示,在处理多种任务时,CTM 在问题解决能力和效率上均展现出显著提升。
Sakana AI 认为,CTM 是弥合人工神经网络与生物神经网络之间鸿沟的关键一步,有望为人工智能开辟全新的能力疆域。
CTM 解决迷宫问题和观察真实照片时的思维过程可视化(图片来源:Alon Cassidy)。引人注目的是,尽管 CTM 的设计并未明确引导,它在迷宫任务中学到的解法却非常直观且类人——可以看到它在“思考”解法时,其注意力仿佛在沿着迷宫路径进行探索。在观察真实图像时,虽然没有外部激励促使它四处观察,但它的视线移动方式也显得相当自然直观。
核心创新:超越静态激活,拥抱神经元动态
自2012年深度学习浪潮兴起以来,人工智能的能力实现了巨大飞跃。然而,一个不容忽视的事实是,当前AI模型中普遍使用的人工神经元基本模型,自上世纪80年代以来其实并没有发生根本性的改变。研究人员依然主要依赖神经元的单一输出值(代表其激发强度),而忽略了一个在生物大脑中至关重要的信息维度:神经元相对于其他神经元激发的精确时间。
大量的神经科学证据表明,这种时间(或称时序)信息对于生物大脑的功能至关重要。例如,“脉冲时间依赖可塑性”(Spike-Timing-Dependent Plasticity, STDP)就是一种基于神经元脉冲发放精确时间的学习机制,被认为是生物大脑学习和记忆的基础之一。
Sakana AI 在他们的新模型 CTM 中,引入了一种机制来表征和利用这种时间信息。他们让每个神经元能够访问自身的活动历史,并学习如何利用这些历史信息来计算其下一个输出,而不仅仅依赖于当前的瞬时状态。这样一来,神经元就能根据过去不同时间点的信息来动态调整自身的行为。更关键的是,CTM 的核心运作机制是建立在这些神经元之间的同步性之上的。这意味着,神经元必须学会利用时间信息来相互协调,共同完成任务。研究者相信,这种设计将催生出比当代主流模型(如RNN、LSTM等)更为丰富的动态行为空间和截然不同的任务解决策略。
当引入了这种时间维度后,Sakana AI 在多种任务中观察到了一系列非同寻常且富有启发性的行为:
- 高度可解释性:例如,在观察图像时,CTM 会审慎地在场景中移动其“注意力焦点”,选择性地关注最显著的特征,这与人类的视觉扫描模式有相似之处。
- 性能提升:在某些任务中,CTM 的表现优于传统模型。
- 行为多样性:神经元活动的动态展现出惊人的多样性,远超传统模型。
CTM 内部神经元动态示例,展示了不同输入下神经元活动模式的变化。可以清晰地看到 CTM 学会了多种不同的神经元行为模式。图中每种颜色代表一个随机选择的神经元,展示了它如何与其他神经元同步。研究者正是通过测量这种同步性,将其作为 CTM 的核心表征。
CTM 的行为是基于一种全新的表征方式:神经元之间随时间演变的同步模式。研究者认为,这种机制虽然不是对生物大脑的严格模拟,但在概念上更接近生物大脑的运作原理。他们将由此诞生的 AI 模型命名为「连续思维机器」(Continuous Thought Machine),因为它能够利用这个新增的时间维度、丰富的神经元动态以及同步信息,在给出最终答案之前,进行内在的“思考”和规划。
名称中的「连续」一词,强调了 CTM 在进行推理时,完全在其内部的“思考维度”中运行。它对于接收到的数据是异步处理的:无论是静态数据(如图像)还是序列数据(如文本或时间序列),CTM 都可以用同样的方式进行推理。研究团队在广泛的任务集上测试了 CTM,发现它不仅能够解决多样化的问题,而且其解决过程往往具有很高的可解释性。
研究者观察到的 CTM 神经元动态,在某些方面确实比更传统的ANN(如经典的LSTM模型)更接近于在真实大脑中测量到的神经活动模式。传统模型往往表现出较为单一、缺乏多样性的行为。相比之下,CTM展现了以不同频率和振幅振荡的神经元。有时,单个神经元甚至会在不同阶段表现出不同频率的振荡;而另一些神经元则可能只在任务执行的关键时刻才被激活。需要特别强调的是,所有这些复杂的动态行为都是完全自发涌现的,并非研究人员刻意设计到模型中的,而是作为引入时间信息和学习解决任务过程中的自然副产品出现的。
上图对比了 CTM 与经典 AI 模型 LSTM 的神经元活动。CTM(左)显示出更丰富多样的动态模式,而 LSTM(右)则相对单调。
CTM 架构概览
下图展示了 CTM 的完整架构:
其核心组件和流程如下:
- 突触模型 (Synaptic Model):负责模拟神经元之间的交互(权重以蓝线表示),产生初步的激活信号(预激活)。
- 预激活历史 (Pre-activation History):每个神经元都会保留其预激活信号的历史记录。
- 神经元级模型 (Neuron-level Model):利用最新的预激活历史记录(权重以红线表示),计算生成最终的激活信号(后激活)。
- 后激活 (Post-activation):神经元的最终输出信号。
- 后激活历史 (Post-activation History):同样,每个神经元也会保留其后激活信号的历史记录。
- 同步矩阵计算 (Synchronization Matrix Calculation):利用后激活历史来计算神经元之间的同步程度矩阵。
- 神经元对选择 (Neuron Pair Selection):从同步矩阵中选取关键的神经元对。
- 潜在表征生成 (Latent Representation Generation):基于选定的神经元对及其同步信息,生成模型的潜在表征。
- 输出与调制 (Output Generation & Modulation):CTM 利用这些潜在表征来产生最终输出,并通过交叉注意力机制 (Cross-Attention) 来调制输入数据。
- 循环更新 (Next Internal Clock Cycle):调制后的数据(例如注意力机制的输出)与当前的后激活信号连接起来,共同输入到下一个内部“思考”时钟周期。
CTM 的实战效果:看得见的“思考”过程
得益于新增的时间维度,CTM 的一个突出优势在于:我们能够直观地观察和理解它随着时间的推移是如何一步步解决问题的。传统的 AI 系统(例如图像分类器)往往通过神经网络进行一次性的前向传播就得出结果,而 CTM 则可以在多个内部“思考步骤”中逐步推敲,最终形成决策。
下面通过两个任务来展示 CTM 的这一特性:解迷宫和图像物体分类。
任务一:解迷宫 (Maze Solving)
在这个任务中,CTM 接收一个俯视视角的二维迷宫图像作为输入,其目标是输出走出迷宫所需的正确步骤序列。这个任务尤其具有挑战性,因为它不仅要求模型理解迷宫的结构,还需要进行路径规划,而不仅仅是输出一个视觉上的路径描绘。
CTM 内部连续的“思考步骤”使其能够有效地制定计划。通过可视化技术,我们可以清晰地看到在每一个思考步骤中,CTM 将其“注意力”集中在迷宫的哪些部分。令人瞩目的是,CTM 自发地学会了一种与人类解决迷宫问题非常相似的策略——它的注意力模式会沿着迷宫的正确路径逐步前进,仿佛在脑海中模拟行走路线。
CTM 解迷宫过程中的注意力可视化。可以看到其注意力焦点(亮区)沿着迷宫路径移动。
CTM 所展现出的这种行为模式之所以令人印象深刻,是因为它是自然涌现的,而非研究人员预先设定的。研究团队并没有在 CTM 的设计中明确加入追踪迷宫路径的指令;模型是通过学习自行探索并发展出了这种高效策略。他们还发现,当允许 CTM 进行更多的思考步骤时,它的注意力会持续沿着已经规划好的路径前进,这表明它确实掌握了解决这类问题的通用方法。
任务二:图像识别 (Image Recognition)
传统的图像识别系统通常一步到位地给出分类决策。相比之下,CTM 则会花费多个思考步骤来审视图像的不同区域,然后才做出最终判断。这种循序渐进的方式不仅使得 AI 的行为更易于理解,而且还带来了准确率的提升:通常情况下,CTM “思考”的时间越长,给出的答案就越准确。
研究者还发现,这种机制使得 CTM 具备一种潜在的优势:它能够根据任务难度调整思考时间。对于简单的图像,CTM 可能会用较少的思考步骤就得出结论,从而节省计算资源。例如,在识别下图中的大猩猩时,CTM 的注意力会先后聚焦于眼睛、鼻子、嘴巴等关键部位,这与人类观察物体时的视觉注意力转移模式颇为相似。
CTM 识别图像(大猩猩)时的注意力逐步转移过程。
这些可视化的注意力模式为我们打开了一扇观察模型推理过程的窗口,清晰地展示了模型认为哪些图像特征对于最终的分类目标最为关键。这种增强的可解释性不仅有助于我们理解模型的决策逻辑,也为未来识别和修正模型可能存在的偏见或故障模式提供了有力的工具。
结论与展望:弥合差距,探索智能新范式
尽管现代人工智能以“人工神经网络”为名,在概念上源于对大脑的模仿,但时至今日,AI 研究与神经科学这两个领域之间的实际交集仍然出人意料地少。AI 研究人员往往倾向于沿用自上世纪 80 年代发展起来的、相对简化的神经元模型。这些模型因其简单易用、训练高效等优点,在推动人工智能发展方面取得了持续的成功。
另一方面,神经科学虽然能够构建出更精确、更复杂的生物大脑模型,但其主要目标是理解大脑本身的运作机制,而非直接创造出更高级的人工智能。当然,理解大脑与构建智能之间必然存在深刻联系。然而,这些神经科学模型尽管在生物学上更逼真,但在执行具体的 AI 任务时,其性能往往仍落后于当前最先进的(State-of-the-Art, SOTA)AI 模型。这或许导致了这类更复杂的模型在人工智能应用领域缺乏进一步研究的动力。
尽管如此,Sakana AI 的研究者们坚信,如果现代人工智能在发展过程中,不能在某些关键方面持续向大脑的真实工作方式靠拢,我们将可能错失巨大的机遇。借鉴大脑的机制,或许正是创造出更强大、更高效的下一代 AI 模型的关键路径。回望历史,正是得益于受大脑启发的神经网络模型,才催生了 2012 年前后的人工智能能力大爆发,开启了波澜壮阔的“深度学习革命”。
那么,为了继续推动人工智能向前发展,我们是否应该更加深入地从大脑这本“自然之书”中汲取智慧呢?
CTM 是 Sakana AI 团队首次尝试弥合 AI 与神经科学这两个领域之间差距的成果。它初步展现出了一些更接近生物大脑行为的特性,例如利用时间信息、展现丰富的动态和可解释的逐步推理过程,同时它仍然是一个能够解决实际问题的、具有实用价值的 AI 模型。
研究者们期望能够继续沿着这条受自然启发的道路前行,探索 CTM 及类似架构可能涌现出的全新能力。关于 CTM 在不同任务中的具体行为表现和更深入的技术细节,请参阅原始的技术报告。







