人工智能领域最近迎来了一项引人关注的新进展。总部位于东京的 Sakana AI 发表了一篇题为《连续思维机器》(Continuous Thought Machines)的论文,提出了一种旨在让机器模拟生物大脑复杂神经活动和“持续思考”能力的新模型。这篇论文的核心观点是挑战当前深度学习中对时间动态的简化处理,试图将神经元层面的时序处理和同步机制重新引入,使“神经时序”成为人工智能模型的基础。
当前主流的神经网络虽然从生物大脑中汲取灵感,但在处理时间信息方面与生物大脑存在显著差异。生物大脑的神经活动在时间维度上展现出高度的复杂性和动态性,这对于信息处理和认知功能至关重要。然而,许多现代神经网络为了计算效率,往往将这种时间动态抽象化,神经元的激活被简化为静态输出。这种简化虽然在特定任务上取得了成功,但也限制了人工智能在常识推理、灵活适应性等方面的表现。
Sakana AI 的研究者认为,时间维度对于实现更高级的人工智能至关重要。他们提出的“连续思维机器”(Continuous Thought Machine, CTM)模型,正是基于这一理念,旨在将神经元层面的动态特性作为其核心表征。
CTM 的两大“杀手锏”:让神经元“活”起来
那么,CTM 是怎么实现这个宏伟目标的呢?论文里提到了两大核心创新:
神经元级别的时序处理 (Neuron-level temporal processing): 这意味着每个神经元都配备了独特的权重参数,使其能够处理一段时间内接收到的信号历史,而不仅仅是即时输入 。 传统模型中的神经元通常对当前输入做出即时反应,而 CTM 中的神经元则能够考虑历史信息,从而计算出其激活状态 。 这种机制使得神经元的激活模式更加复杂和多样化,更接近生物神经元的实际工作方式 。
神经同步作为隐层表示 (Neural synchronization as a latent representation): 这是 CTM 的另一个关键创新。CTM 不再仅仅依赖神经元在特定时间点的激活快照,而是将神经元活动在一段时间内的“同步性”作为核心的内部表征 。 也就是说,CTM 关注不同神经元在一段时间内活动模式的协调与配合程度 。 这种同步信息被用于理解输入数据、进行预测,并调节模型的注意力机制 。
CTM 的“内心戏”:一个与数据解耦的“思考维度”
为了让这种基于时间的“思考”成为可能,CTM 引入了一个非常关键的概念——内部序列维度 (internal sequence dimension),研究者也称之为“内部滴答” (internal ticks) 。 这个维度独立于输入数据的维度,允许模型在内部按照自身节奏进行迭代处理和信息提炼,无论输入是静态图像还是复杂迷宫 。 这类似于人类思考问题时,即使面对静态对象,大脑也会进行一系列内部认知活动。
这个内部“思考”的过程可以简化为以下循环:
信息交互 (Synapse Model):突触模型负责神经元之间的信息传递 。它接收前一时刻神经元的“后激活状态”以及通过注意力机制等从外部输入数据中提取的特征,计算出当前时刻的“前激活状态” 。
神经元“个性化”处理 (Neuron-Level Models):每个神经元都拥有独立的神经元级别模型,根据其接收到的“前激活状态”历史记录,计算出下一时刻的“后激活状态” 。
“同步”读心术 (Neural Synchronization):CTM 记录所有神经元在一段时间内的“后激活状态”历史,并计算它们之间的“同步矩阵” 。该矩阵反映了不同神经元活动模式的关联性。
决策与行动 (Output and Attention):基于这个“同步矩阵”,CTM 生成输出(如图像分类结果)或调节对输入数据的注意力(如决定关注图像的特定区域) 。
循环往复,持续“思考”:注意力机制的输出与当前神经元的“后激活状态”一同进入下一个“内部滴答”的循环,如此往复,直至模型完成其处理过程 。
CTM 的“超能力”展示:从图像识别到走迷宫,样样行!
说了这么多理论,CTM 的实际表现如何呢?论文中,研究者们在一系列具有挑战性的任务上对 CTM 进行了“烤问”,结果相当喜人:
ImageNet-1K 图像分类: 尽管论文声明其目标并非刷新SOTA纪录,CTM 在此经典图像分类任务中取得了稳健的性能 。更重要的是,它展示了有趣的内部“思考”过程。例如,CTM 的注意力会随着“内部滴答”的进行,在图像的不同区域平滑移动,有时聚焦于关键特征,有时则覆盖更广的区域,仿佛在仔细观察和理解图像内容 。
此外,CTM 表现出良好的校准性,即其对自己预测的置信度较为可靠,这通常需要额外的训练技巧才能实现 。 一个令人惊讶的发现是,CTM 的神经元活动展现出复杂的多尺度模式,甚至在没有外部驱动信号的情况下,也能观察到类似于生物大脑皮层中常见的低频行波现象 。
2D 迷宫挑战: 为了测试 CTM 的复杂序列推理和规划能力,研究者们设计了一个颇具挑战性的2D 迷宫任务 。 该任务要求模型直接输出从起点到终点的完整路径,并且在注意力机制中移除了位置编码,以此促使模型自行构建对迷宫的内部“世界表征” 。
结果显示,CTM 在此任务上表现优异,显著超越了 LSTM 等基线模型,展现了其构建和利用内部世界模型的能力 。 更有趣的是,即使面对比训练时更大、路径更长的迷宫,CTM 也能通过多次“重新应用”(即把上一次预测的终点作为下一次的起点)来解决问题,显示出了一定的泛化能力 。 研究者认为,这种能力与人类的“情景性未来思维”(episodic future thinking)具有相似性,即通过“想象”未来的状态来指导当前行动 。
排序、奇偶校验、问答 MNIST: CTM 在这些需要理解算法流程、记忆和逻辑运算的任务上也表现不俗 。 例如,在排序任务中,CTM 输出序列中每个数字的“等待时间”(即产生该输出所需的“内部滴答”数)与数字之间的差值相关,暗示其内部形成了一种依赖数据排布的算法 。
在奇偶校验任务中,CTM 能够学会根据输入序列逐步计算累积奇偶性,并且拥有更多“思考时间”(内部滴答数)的 CTM 表现更好,甚至能发展出不同的解决策略,比如正向或反向处理序列 。 在问答 MNIST 任务中,CTM 需要先观察一系列 MNIST 数字图像,然后再根据后续的索引和操作符指令,回忆之前看到的数字并进行模运算 。 即使被观察的数字已经超出了神经元模型的直接“记忆窗口”,CTM 依然能通过神经元的组织和同步来回忆这些数字,展现了其通过神经同步实现记忆和提取的潜力 。
强化学习任务: CTM 还能应用于需要与外部环境持续交互的强化学习任务中 。 在经典的 CartPole(平衡杆)、Acrobot(双摆)和 MiniGrid Four Rooms(四房间导航)等部分可观察的环境中,CTM 能够学习有效的策略,其表现与 LSTM 基线相当,但其内部神经元活动模式更为丰富和复杂 。 这表明 CTM 确实可以将神经动态作为一种持续的计算工具,在与环境的互动中不断调整和学习。
CTM 的“软肋”与未来展望:道阻且长,行则将至
当然,CTM 并非没有提升空间。论文也指出了其当前的一些局限性:
计算成本:由于其顺序处理的特性,CTM 的训练时间相较于标准的前馈模型更长,同时神经元级别的模型也带来了额外的参数开销 。研究者认为其带来的益处值得进一步探索 。
“黑箱”挑战:尽管 CTM 的内部过程为可解释性提供了一些线索,但完全理解其复杂的神经动态如何产生智能行为,仍需后续研究。
尽管如此,CTM 的提出为人工智能领域带来了新的视角。它挑战了现有的模型范式,强调了“神经时序”和“神经同步”在构建更接近生物智能的 AI 系统中的潜在价值 。研究者们也对 CTM 的未来发展方向进行了展望:
探索更大规模、更复杂的同步表示:目前 CTM 主要利用了部分神经元对的同步信息,未来可以研究利用完整的、高维度的同步矩阵的潜力,这可能在多模态建模等领域具有优势 。
应用于序列数据和语言建模:CTM 的“持续思考”特性使其具备处理视频、文本等序列数据的潜力,甚至可能在不需要位置编码的情况下构建语言的上下文“世界模型” 。
迈向更“自然”的训练方式:当前 CTM 仍在传统的数据集和训练框架下进行评估,未来可以探索更接近真实世界数据生成方式的训练方法,例如数据按时间顺序排列的场景 。
借鉴更多生物机制:例如,探索将生物可塑性机制(如赫布学习)与 CTM 相结合,应用于终身学习或无梯度优化等前沿研究方向 。
AI 的“思考”之路,仍在探索
总而言之,Sakana AI 提出的“连续思维机器” CTM 是一项富有创新且具有启发性的研究工作 。它鼓励我们重新审视当前深度学习模型在时间动态处理上的简化,并从生物神经计算中汲取灵感,探索构建更强大、更灵活人工智能系统的新路径 。尽管让人工智能系统真正实现类人“思考”的目标依然任重道远,但 CTM 的出现为这一方向的研究提供了新的思路和工具。
这项研究也再次提示我们,在人工智能的发展过程中,借鉴生物智能的原理可能是一条充满潜力的途径。CTM 的一些 emergent(涌现的)特性,如良好的校准性,并非预先设计,而是在模拟生物机制的过程中自然产生的,这本身就非常耐人寻味 。未来,如何在计算效率与生物学合理性之间取得更好的平衡,以及如何将更多生物智能的精髓融入到人工智能模型中,将是值得持续探索的重要课题。
论文地址:https://arxiv.org/abs/2505.05522
项目地址:https://github.com/SakanaAI/continuous-thought-machines/