Reading notes of Brain and Behavior (VII)

26 Mar 2026

知是行之始，行是知之成。 —王阳明

这一章终于讲到了一个很根本的问题。大脑为什么需要存在？一个很自然但常常被忽略的答案是：为了行动。

本书的前几章都在阐明知觉不是被动接收世界，而是主动构造世界。本章更进一步指出，大脑的终点从来不只是认识世界，而是改变世界。看见、听到、记住、预测、计划、判断，这些能力当然都很重要，但它们之所以重要，往往因为它们最终会落到身体上，变成某种能够改变外部环境的动作。从这个意义出发考虑，运动不是认知的附属品，而是认知存在的主要理由之一。本章开头的《潜水钟与蝶》主角locked-in syndrome的案例是这件事情残酷的佐证。Jean-Dominique Bauby的意识、记忆和想象力仍然存在，但身体几乎完全失去响应，只剩下一只眼睛还能与世界交换信息。他花了二十万次眨眼完成了最后的回忆录。他的意识就是一只渴望自由的蝴蝶，可身体却如同一个潜水钟一般，所有的行动接口都被切断。所谓自我，从来都不是某个孤立漂浮的思维体，而是一个能够对世界施加影响的闭环系统。

高层智能从大脑到脊髓和身体的下沉

这一章里看到的第一个反直觉的事实是：很多我们以为属于高层智能的东西，其实早就被下沉到了脊髓和身体本身。书里讲到，脊髓不仅仅是电缆，而是一个带有局部计算能力的控制系统。它能完成反射，也能通过central pattern generators生成节律性动作（心跳、呼吸、迈步）。最惊人的例子是，猫在脑干与脊髓切断之后，脊髓仍然可以在跑步机上生成简单的步行动作。再往下看，左右交替步态甚至依赖跨越脊髓中线的抑制性连接。有些小鼠因为发育分子缺失，失去了左右交替激活的能力，于是不会像正常动物那样迈步，而会像兔子一样跳着前进。也就是说，行走这种我们以为要由大脑精确规划的行为，在很大程度上其实是一种低层网络自身就具备的动力学模式。大脑很多时候不是在逐时刻解每一根肌肉的控制方程，而更像是在启动、调节、切换和约束这些底层模式。

这一点和今天的具身智能特别相关。当前主流的机器人大模型（VLA）已经不是直接输出每个关节的力矩——它们通常输出末端执行器的位姿增量，再由底层逆运动学和阻抗控制器转换为关节命令，并且会用 action chunking 一次预测一整段轨迹而非逐帧决策。这已经是一种分层。但这个分层仍然是”大脑很重、脊髓很轻”的架构：高层模型承担了几乎全部的感知、判断和轨迹规划，底层控制器只是一个无状态的数学求解器，没有自己的适应性和记忆。脑科学给出的答案更激进。低层系统不只是被动执行，它自己就有智能——脊髓能独立维持步态节律、完成反射性抗扰和顺应性调节，即使与大脑完全断开也能产生协调的运动模式。高层系统只负责目标、约束和模式切换。真正稳定的行动，不是由一个全知全能的中心实时计算所有细节，而是由多个层级各自拥有能力、共同完成。对机器人来说，这意味着当前的分层还可以走得更远：语言或高层 policy 负责意图和任务分解，中层负责动作原语和序列组织，底层则不该只是一个逆运动学求解器，而应该像脊髓一样，拥有自己的状态、自己的节律发生器、自己的反射回路——专门处理平衡、抓握、顺应性、步态节律和瞬时误差恢复，不需要等高层模型下一次推理就能自主响应。第七章其实是在提醒我们，智能不该只长在大脑皮层，也应该长在身体里。

另一个很不寻常的发现，是小脑的角色可能比教材里那句”协调运动”复杂得多。书里提到，小脑体积不到整个神经系统的十分之一，却包含比其他所有结构加起来还多的神经元。它是个古老而密集的器官，皮层像晶体一样重复着高度规则的电路结构。这种几乎过于整齐的结构，让人很难不去猜测，它所做的可能是一类非常通用、非常高频、非常低延迟的计算，而不只是某种狭义的运动修饰。书中提到一个非常漂亮的解释是 forward modeling。你接高速运动的球时，手不能去向球现在所在的位置，而必须去向它将来会出现的位置。更麻烦的是，你对自己手臂位置的感觉本身也存在延迟，所以你不仅要预测外界，还要预测自己。小脑很可能就在做这种双重预测。

这个想法和机器人控制中的核心痛点高度对应。真实世界中的控制从来都不是无延迟的：相机有帧延迟，状态估计有误差，执行器有响应延迟，通信有时延，模型推理也有时延。经典控制其实一直有 forward model：Kalman filter 就是状态预测器，MPC 的核心就是在内部模型上做前向 rollout，这些方法用了几十年。真正的瓶颈在于，传统 forward model 依赖手写的物理方程，一旦环境复杂度超过建模能力就会失效。很多控制系统一进非结构化的真实环境就表现急剧下降，不是因为架构里缺少预测这个环节，而是因为它们的预测模型表达能力不够，无法覆盖真实世界的丰富性。这恰好是当前 world model 路线正在尝试解决的问题——用学习到的高维预测模型取代手写方程。脑科学的启发在这里还指向一个更具体的工程问题。当前主流 VLA 的推理延迟在百毫秒量级，而底层控制回路需要毫秒级响应。这中间差了两个数量级的时间鸿沟，恰好就是一个 learned forward model 需要填补的位置。它不需要像高层策略那样理解语义，只需要在极低延迟下持续预测短时未来的状态演化，补偿感知和执行链路上的滞后。而”预测自己”这一点尤其值得注意：大多数机器人系统隐含假设对自身状态有完美的观测，但真实情况是关节编码器有噪声、柔性关节有形变、末端负载随任务改变惯性参数。小脑式的自我预测，在工程上对应的是对 proprioception 做主动的、带模型的估计，而不是简单地信任传感器读数。

更让我意外的是，小脑并不只和运动相关。书里明确提到，小脑损伤不仅影响协调、节律、平衡和快速交替运动，也可能影响认知与情感，形成 cerebellar cognitive affective syndrome。换句话说，小脑也许不仅是一个动作校准器，还是一个更一般化的时序协调器和预测器。它在运动里负责时间和误差校正，在认知里也可能承担类似角色。这件事值得今天做 AI 和机器人系统的人注意。我们现在很习惯把 cognition 和 action 彻底拆开，仿佛语言模型负责思考，控制器负责执行。但在脑里，这两者似乎共享某些更底层的算法原理，不一定是同一个物理模块，但可能是同一类计算范式：基于时序的预测、误差前馈和快速校正。也许一个更完整的 embodied architecture 里，不需要把运动预测和认知预测硬塞进同一个网络，但应该让不同层级的子系统都具备这种小脑式的能力——持续做跨模态的短时预测和误差前馈修正，而不是把所有预测负担都压在一个大而慢的中枢模型上。

这一章关于 motor cortex 的部分同样很有意思，因为它打破了另一个常识。我们过去很容易把运动皮层想成一张简单的人体地图，也就是 motor homunculus。书里当然承认这种 somatotopic mapping 的存在，但后面的内容表明，这种图景其实非常不完整。首先，皮层中各个身体部位的面积并不反映身体本身的大小，而反映控制精度。手、嘴、舌头占了巨大的区域，不是因为它们大，而是因为它们需要更高分辨率的控制。其次，对单神经元和群体活动的研究发现，primary motor cortex 似乎并不只是按某块肌肉或某个身体部位来编码，它还通过 population coding 的方式表示动作方向。再进一步的研究甚至发现，它可能更接近编码动作的最终姿态、动作类别，甚至是高维信息压缩到一张二维皮层表面上的投影结果。也就是说，大脑并不一定把动作表示成”某块肌肉收缩多少”，而可能把它表示成某个更高维动作流形中的一点，由整群神经元共同投票决定。

有意思的是，机器人控制领域几乎是独立地走到了类似的结论。当前主流的策略网络已经不在原始 actuator space 里做控制。VLA 输出末端执行器位姿，扩散策略在学习到的潜空间里采样，这些本质上都是某种 latent action space。但这些潜空间大多是纯数据驱动压缩出来的，没有什么内在结构。神经科学的启发也许在于：这个潜空间不一定要是一个无结构的连续流形，它也许应该有更丰富的组织方式，比如按动作类别、目标姿态或可供性来结构化，更接近大脑按”生态学上有意义的行为类别”来组织运动表征的方式。两个领域从完全不同的出发点（演化压力和训练效率）收敛到了相似的设计原则，这本身就很值得注意。书里还有一个很容易被忽视的点。较长时间的皮层刺激会诱发完整动作而不是简单的肌肉抽动，例如把手送到嘴边，或者把手摆成抓取姿势。这说明大脑里的动作表示也许从一开始就是面向完整行为单元的，而不是先有原子级肌肉信号再由高层拼装。这和机器人领域的 action chunking 形成了有趣的呼应。Action chunking 的工程动机其实很具体：逐帧预测动作会导致多模态分布被平均化，一次预测一整段轨迹能绕开这个问题。但结果是，工程上最好用的方案，恰好和大脑的组织方式长得很像，都是以完整行为片段为单位，而不是以原子动作为单位。

书里还提到了镜像神经元。某些神经元不仅在自己执行动作时放电，在观察他人执行相似动作时也会放电，而且对有明确目标的动作响应更强。需要说明的是，镜像神经元是神经科学里争议很大的话题，围绕它的很多宏大解读（意图理解、共情基础等）被认为是过度推断。但抛开那些争议，有一个相对保守的观察仍然有价值：运动系统似乎更偏好用目标和可供性来组织动作，而不是用纯粹的几何轨迹。这个方向在机器人领域有独立的、扎实的工程基础，从 Gibson 的 ecological psychology 到现在的 affordance prediction 网络，不需要镜像神经元来背书，但两边指向同一个方向，还是值得记住。

基底神经节的部分也非常值得注意。书里提到，基底神经节至少有五条不同的闭环，不只是服务于运动，还有眼动、认知、判断、情绪和价值评估。它更像一个启动、维持、终止不同行为过程的门控系统，而不是单纯的运动核团。看 Huntington 和 Parkinson 这两种疾病的对照尤其有意思。前者更像抑制系统先坏掉，于是出现过量和失控的动作以及情绪和认知层面的失抑制。后者则更像兴奋通路和维持行为的能力先坏掉，于是动作贫乏、启动困难、面具脸、步态拖曳。这个对比其实很启发人。一个系统的智能，不只是会不会动，还包括能不能在对的时候开始、在该持续的时候保持、在该停止的时候及时停下。做机器人的人通常更关心 trajectory optimization，但基底神经节提醒我们，行为的门控和切换机制本身同样关键。

运动层级对于智能体架构的启示

前额叶运动层级这一节则让我想到一个很工程的问题。书里把行动拆成一个很清楚的层级，从需求到目标，从目标到策略，从策略到战术，再到具体动作。饥饿不是动作，买三明治也不是动作，走去食堂、伸手拿钱、张嘴说话才是动作。大脑的高层不是直接操纵肌肉，而是在不断把抽象目标重写成更具体、更局部、更即时的控制问题。当前 LLM agent 领域其实已经在沿着这个方向走了。SayCan 让语言模型提议子任务再由底层技能执行，Code as Policies 把高层意图编译成可执行的技能序列，这些本质上都是在做层级式的目标重写。但目前真正难的地方不在于分层本身，而在于两件更具体的事：一是中间层级失败之后如何稳健地回溯和重新规划，而不是整条链路崩掉从头再来；二是抽象目标如何 grounding 到物理约束上，比如”把桌子收拾干净”到底意味着哪些物体要被移到哪里，这需要语义理解和物理场景的深度绑定。第七章里的层级模型不算是一个新发现，但它提醒我们，这种分层如果做得不够深、不够鲁棒，高层 agent 再聪明也没用。

第七章里还有一个我很喜欢的部分，是关于为什么人不能很好地 multitask。书里的解释非常漂亮。感知系统很多步骤是并行的，所以认脸、看场景、听声音这些事情可以很快一起完成。运动系统却不同，它通常要把任务拆成层级和序列，并且很多步骤必须按顺序进行。你不能一边打蛋一边已经把 omelette 煎好了，顺序本身就是计算的一部分。因此，任何借用了运动层级架构的认知任务（比如长除法）都天然更慢，也更容易碰到瓶颈。这里我第一次强烈地意识到，所谓多任务困难，不一定只是注意力资源不够，也可能是计算图拓扑决定了它必须串行。

这个观察对智能体设计的意义，也许主要不是针对物理机器人（物理执行的串行性是做机器人的人早就理解的），而是针对做软件 agent 的社区。很多人希望 LLM agent 能像服务器一样多线程处理各种任务，但一旦这些任务涉及对真实世界的操作，行动本身往往是强序列化的。感知可以并行，行动很多时候必须排队。真正成熟的 embodied architecture 也许应该明确区分并行感知栈和串行行动栈，前者像视觉和听觉系统可以异步运行，后者像运动控制层级必须管理优先级、排队和互斥。否则系统在仿真里看起来能做很多事，一落到真实世界就会因为执行冲突和状态依赖而变得脆弱。

这一章最后最震撼的部分当然是 free will。Libet 实验以及后续研究都指向一个很不舒服的发现：和动作相关的准备活动，可能在我们意识到自己想要行动之前就已经出现了。更进一步，frontopolar cortex 的活动甚至可以在被试意识到自己将要抬左手还是右手之前很多秒，就预测出结果。需要说明的是，Libet 实验在神经科学界一直有争议，尤其是主观报告的计时方法和 readiness potential 的解读都被质疑过，所以不宜把它当作”自由意志不存在”的铁证。但即使搁置哲学争论，有两个刺激实验的结果仍然非常值得注意。刺激 premotor cortex，会真的产生动作，但患者否认自己动过。刺激 parietal cortex，则会产生想动甚至觉得已经动了的感觉，但身体实际上根本没动。换句话说，行动和行动感是可以被拆开的。

这件事对机器人设计有一个很具体的启发。我们通常觉得 agency 是一个很神秘的属性，好像某个系统内部必须有一个真正的”我”才算有主动性。但这一章提供了一种更可操作的理解：所谓 agency，也许本质上是一个系统内部的一致性问题。当目标、计划、感觉预期和身体状态预测高度一致，行动就会被体验为”我主动做的”。当这种一致性被打破，就会出现 alien hand syndrome 那样的现象：primary motor cortex 明明产生了动作，但因为这个动作没有嵌入更高层的目标和感觉预期，于是它不再被体验为”我的”动作。对机器人来说，这意味着让人觉得一个机器人”有 agency”，关键可能不在于它内部有多复杂的决策机制，而在于它的动作是否和它表现出的目标、预测、注意力朝向之间保持可感知的一致性。一个动作精确但意图不可读的机器人，反而会让人觉得像是在被遥控。

读完这一章之后，我越来越觉得，脑科学对具身智能最大的启发，不是告诉我们如何模仿某个局部模块，而是提醒我们一个更深的事实：智能从来不是纯粹的大脑算法，而是目标、身体、感觉、延迟、环境和控制层级共同形成的闭环。这一章里反复出现的模式是同一个：大脑不信任单一中枢，不信任无延迟假设，不信任完美感知，不信任原子级控制，而是用分层、预测、冗余和局部自治来应对一个根本不完美的物理世界。

当前具身智能领域最大的不对称也许恰好在这里。我们在感知和高层推理上投入了巨量的算力和数据，但在中间层和底层，在预测、在时序协调、在局部自治回路上，投入的智能仍然很薄。模型越来越大，但脊髓和小脑对应的那一层几乎还是空的。也许未来真正的突破不在于让大脑变得更大，而在于让身体变得更聪明。

注: 本文部分内容经过ChatGPT和Claude润色处理。

Infectious Waste

Posts by Category

Reading notes of Brain and Behavior (VII)

高层智能从大脑到脊髓和身体的下沉

运动层级对于智能体架构的启示

Infectious Waste

Posts by Category

Reading notes of Brain and Behavior (VII)

高层智能从大脑到脊髓和身体的下沉

运动层级对于智能体架构的启示

Related Posts

对<智能增长的瓶颈>一文的一些看法 30 Dec 2025

Reading notes of Brain and Behavior (VI) 02 Feb 2025

Creator Mode 08 Sep 2024