Reading notes of Brain and Behavior (VII)

知是行之始,行是知之成。 —王阳明

这一章终于讲到了一个很根本的问题。大脑为什么需要存在?一个很自然但常常被忽略的答案是:为了行动。

本书的前几章都在阐明知觉不是被动接收世界,而是主动构造世界。本章更进一步指出,大脑的终点从来不只是认识世界,而是改变世界。看见、听到、记住、预测、计划、判断,这些能力当然都很重要,但它们之所以重要,往往因为它们最终会落到身体上,变成某种能够改变外部环境的动作。从这个意义出发考虑,运动不是认知的附属品,而是认知存在的主要理由之一。本章开头的《潜水钟与蝶》主角locked-in syndrome的案例是这件事情残酷的佐证。Jean-Dominique Bauby的意识、记忆和想象力仍然存在,但身体几乎完全失去响应,只剩下一只眼睛还能与世界交换信息。他花了二十万次眨眼完成了最后的回忆录。他的意识就是一只渴望自由的蝴蝶,可身体却如同一个潜水钟一般,所有的行动接口都被切断。所谓自我,从来都不是某个孤立漂浮的思维体,而是一个能够对世界施加影响的闭环系统。

高层智能从大脑到脊髓和身体的下沉

这一章里看到的第一个反直觉的事实是:很多我们以为属于高层智能的东西,其实早就被下沉到了脊髓和身体本身。书里讲到,脊髓不仅仅是电缆,而是一个带有局部计算能力的控制系统。它能完成反射,也能通过central pattern generators生成节律性动作(心跳、呼吸、迈步)。最惊人的例子是,猫在脑干与脊髓切断之后,脊髓仍然可以在跑步机上生成简单的步行动作。再往下看,左右交替步态甚至依赖跨越脊髓中线的抑制性连接。有些小鼠因为发育分子缺失,失去了左右交替激活的能力,于是不会像正常动物那样迈步,而会像兔子一样跳着前进。也就是说,行走这种我们以为要由大脑精确规划的行为,在很大程度上其实是一种低层网络自身就具备的动力学模式。大脑很多时候不是在逐时刻解每一根肌肉的控制方程,而更像是在启动、调节、切换和约束这些底层模式。

这一点和今天的具身智能特别相关。当前主流的机器人大模型(VLA)已经不是直接输出每个关节的力矩——它们通常输出末端执行器的位姿增量,再由底层逆运动学和阻抗控制器转换为关节命令,并且会用 action chunking 一次预测一整段轨迹而非逐帧决策。这已经是一种分层。但这个分层仍然是”大脑很重、脊髓很轻”的架构:高层模型承担了几乎全部的感知、判断和轨迹规划,底层控制器只是一个无状态的数学求解器,没有自己的适应性和记忆。 脑科学给出的答案更激进。低层系统不只是被动执行,它自己就有智能——脊髓能独立维持步态节律、完成反射性抗扰和顺应性调节,即使与大脑完全断开也能产生协调的运动模式。高层系统只负责目标、约束和模式切换。真正稳定的行动,不是由一个全知全能的中心实时计算所有细节,而是由多个层级各自拥有能力、共同完成。 对机器人来说,这意味着当前的分层还可以走得更远:语言或高层 policy 负责意图和任务分解,中层负责动作原语和序列组织,底层则不该只是一个逆运动学求解器,而应该像脊髓一样,拥有自己的状态、自己的节律发生器、自己的反射回路——专门处理平衡、抓握、顺应性、步态节律和瞬时误差恢复,不需要等高层模型下一次推理就能自主响应。第七章其实是在提醒我们,智能不该只长在大脑皮层,也应该长在身体里。

另一个很不寻常的发现,是小脑的角色可能比教材里那句”协调运动”复杂得多。书里提到,小脑体积不到整个神经系统的十分之一,却包含比其他所有结构加起来还多的神经元。它是个古老而密集的器官,皮层像晶体一样重复着高度规则的电路结构。这种几乎过于整齐的结构,让人很难不去猜测,它所做的可能是一类非常通用、非常高频、非常低延迟的计算,而不只是某种狭义的运动修饰。书中提到一个非常漂亮的解释是 forward modeling。你接高速运动的球时,手不能去向球现在所在的位置,而必须去向它将来会出现的位置。更麻烦的是,你对自己手臂位置的感觉本身也存在延迟,所以你不仅要预测外界,还要预测自己。小脑很可能就在做这种双重预测。

这个想法和机器人控制中的核心痛点高度对应。真实世界中的控制从来都不是无延迟的:相机有帧延迟,状态估计有误差,执行器有响应延迟,通信有时延,模型推理也有时延。经典控制其实一直有 forward model:Kalman filter 就是状态预测器,MPC 的核心就是在内部模型上做前向 rollout,这些方法用了几十年。真正的瓶颈在于,传统 forward model 依赖手写的物理方程,一旦环境复杂度超过建模能力就会失效。很多控制系统一进非结构化的真实环境就表现急剧下降,不是因为架构里缺少预测这个环节,而是因为它们的预测模型表达能力不够,无法覆盖真实世界的丰富性。这恰好是当前 world model 路线正在尝试解决的问题——用学习到的高维预测模型取代手写方程。 脑科学的启发在这里还指向一个更具体的工程问题。当前主流 VLA 的推理延迟在百毫秒量级,而底层控制回路需要毫秒级响应。这中间差了两个数量级的时间鸿沟,恰好就是一个 learned forward model 需要填补的位置。它不需要像高层策略那样理解语义,只需要在极低延迟下持续预测短时未来的状态演化,补偿感知和执行链路上的滞后。而”预测自己”这一点尤其值得注意:大多数机器人系统隐含假设对自身状态有完美的观测,但真实情况是关节编码器有噪声、柔性关节有形变、末端负载随任务改变惯性参数。小脑式的自我预测,在工程上对应的是对 proprioception 做主动的、带模型的估计,而不是简单地信任传感器读数。

更让我意外的是,小脑并不只和运动相关。书里明确提到,小脑损伤不仅影响协调、节律、平衡和快速交替运动,也可能影响认知与情感,形成 cerebellar cognitive affective syndrome。换句话说,小脑也许不仅是一个动作校准器,还是一个更一般化的时序协调器和预测器。它在运动里负责时间和误差校正,在认知里也可能承担类似角色。这件事值得今天做 AI 和机器人系统的人注意。我们现在很习惯把 cognition 和 action 彻底拆开,仿佛语言模型负责思考,控制器负责执行。但在脑里,这两者似乎共享某些更底层的算法原理,不一定是同一个物理模块,但可能是同一类计算范式:基于时序的预测、误差前馈和快速校正。也许一个更完整的 embodied architecture 里,不需要把运动预测和认知预测硬塞进同一个网络,但应该让不同层级的子系统都具备这种小脑式的能力——持续做跨模态的短时预测和误差前馈修正,而不是把所有预测负担都压在一个大而慢的中枢模型上。

这一章关于 motor cortex 的部分同样很有意思,因为它打破了另一个常识。我们过去很容易把运动皮层想成一张简单的人体地图,也就是 motor homunculus。书里当然承认这种 somatotopic mapping 的存在,但后面的内容表明,这种图景其实非常不完整。首先,皮层中各个身体部位的面积并不反映身体本身的大小,而反映控制精度。手、嘴、舌头占了巨大的区域,不是因为它们大,而是因为它们需要更高分辨率的控制。其次,对单神经元和群体活动的研究发现,primary motor cortex 似乎并不只是按某块肌肉或某个身体部位来编码,它还通过 population coding 的方式表示动作方向。再进一步的研究甚至发现,它可能更接近编码动作的最终姿态、动作类别,甚至是高维信息压缩到一张二维皮层表面上的投影结果。也就是说,大脑并不一定把动作表示成”某块肌肉收缩多少”,而可能把它表示成某个更高维动作流形中的一点,由整群神经元共同投票决定。

有意思的是,机器人控制领域几乎是独立地走到了类似的结论。当前主流的策略网络已经不在原始 actuator space 里做控制。VLA 输出末端执行器位姿,扩散策略在学习到的潜空间里采样,这些本质上都是某种 latent action space。但这些潜空间大多是纯数据驱动压缩出来的,没有什么内在结构。神经科学的启发也许在于:这个潜空间不一定要是一个无结构的连续流形,它也许应该有更丰富的组织方式,比如按动作类别、目标姿态或可供性来结构化,更接近大脑按”生态学上有意义的行为类别”来组织运动表征的方式。两个领域从完全不同的出发点(演化压力和训练效率)收敛到了相似的设计原则,这本身就很值得注意。 书里还有一个很容易被忽视的点。较长时间的皮层刺激会诱发完整动作而不是简单的肌肉抽动,例如把手送到嘴边,或者把手摆成抓取姿势。这说明大脑里的动作表示也许从一开始就是面向完整行为单元的,而不是先有原子级肌肉信号再由高层拼装。这和机器人领域的 action chunking 形成了有趣的呼应。Action chunking 的工程动机其实很具体:逐帧预测动作会导致多模态分布被平均化,一次预测一整段轨迹能绕开这个问题。但结果是,工程上最好用的方案,恰好和大脑的组织方式长得很像,都是以完整行为片段为单位,而不是以原子动作为单位。

书里还提到了镜像神经元。某些神经元不仅在自己执行动作时放电,在观察他人执行相似动作时也会放电,而且对有明确目标的动作响应更强。需要说明的是,镜像神经元是神经科学里争议很大的话题,围绕它的很多宏大解读(意图理解、共情基础等)被认为是过度推断。但抛开那些争议,有一个相对保守的观察仍然有价值:运动系统似乎更偏好用目标和可供性来组织动作,而不是用纯粹的几何轨迹。这个方向在机器人领域有独立的、扎实的工程基础,从 Gibson 的 ecological psychology 到现在的 affordance prediction 网络,不需要镜像神经元来背书,但两边指向同一个方向,还是值得记住。

基底神经节的部分也非常值得注意。书里提到,基底神经节至少有五条不同的闭环,不只是服务于运动,还有眼动、认知、判断、情绪和价值评估。它更像一个启动、维持、终止不同行为过程的门控系统,而不是单纯的运动核团。看 Huntington 和 Parkinson 这两种疾病的对照尤其有意思。前者更像抑制系统先坏掉,于是出现过量和失控的动作以及情绪和认知层面的失抑制。后者则更像兴奋通路和维持行为的能力先坏掉,于是动作贫乏、启动困难、面具脸、步态拖曳。这个对比其实很启发人。一个系统的智能,不只是会不会动,还包括能不能在对的时候开始、在该持续的时候保持、在该停止的时候及时停下。做机器人的人通常更关心 trajectory optimization,但基底神经节提醒我们,行为的门控和切换机制本身同样关键。

运动层级对于智能体架构的启示

前额叶运动层级这一节则让我想到一个很工程的问题。书里把行动拆成一个很清楚的层级,从需求到目标,从目标到策略,从策略到战术,再到具体动作。饥饿不是动作,买三明治也不是动作,走去食堂、伸手拿钱、张嘴说话才是动作。大脑的高层不是直接操纵肌肉,而是在不断把抽象目标重写成更具体、更局部、更即时的控制问题。当前 LLM agent 领域其实已经在沿着这个方向走了。SayCan 让语言模型提议子任务再由底层技能执行,Code as Policies 把高层意图编译成可执行的技能序列,这些本质上都是在做层级式的目标重写。但目前真正难的地方不在于分层本身,而在于两件更具体的事:一是中间层级失败之后如何稳健地回溯和重新规划,而不是整条链路崩掉从头再来;二是抽象目标如何 grounding 到物理约束上,比如”把桌子收拾干净”到底意味着哪些物体要被移到哪里,这需要语义理解和物理场景的深度绑定。第七章里的层级模型不算是一个新发现,但它提醒我们,这种分层如果做得不够深、不够鲁棒,高层 agent 再聪明也没用。

第七章里还有一个我很喜欢的部分,是关于为什么人不能很好地 multitask。书里的解释非常漂亮。感知系统很多步骤是并行的,所以认脸、看场景、听声音这些事情可以很快一起完成。运动系统却不同,它通常要把任务拆成层级和序列,并且很多步骤必须按顺序进行。你不能一边打蛋一边已经把 omelette 煎好了,顺序本身就是计算的一部分。因此,任何借用了运动层级架构的认知任务(比如长除法)都天然更慢,也更容易碰到瓶颈。这里我第一次强烈地意识到,所谓多任务困难,不一定只是注意力资源不够,也可能是计算图拓扑决定了它必须串行。

这个观察对智能体设计的意义,也许主要不是针对物理机器人(物理执行的串行性是做机器人的人早就理解的),而是针对做软件 agent 的社区。很多人希望 LLM agent 能像服务器一样多线程处理各种任务,但一旦这些任务涉及对真实世界的操作,行动本身往往是强序列化的。感知可以并行,行动很多时候必须排队。真正成熟的 embodied architecture 也许应该明确区分并行感知栈和串行行动栈,前者像视觉和听觉系统可以异步运行,后者像运动控制层级必须管理优先级、排队和互斥。否则系统在仿真里看起来能做很多事,一落到真实世界就会因为执行冲突和状态依赖而变得脆弱。

这一章最后最震撼的部分当然是 free will。Libet 实验以及后续研究都指向一个很不舒服的发现:和动作相关的准备活动,可能在我们意识到自己想要行动之前就已经出现了。更进一步,frontopolar cortex 的活动甚至可以在被试意识到自己将要抬左手还是右手之前很多秒,就预测出结果。需要说明的是,Libet 实验在神经科学界一直有争议,尤其是主观报告的计时方法和 readiness potential 的解读都被质疑过,所以不宜把它当作”自由意志不存在”的铁证。但即使搁置哲学争论,有两个刺激实验的结果仍然非常值得注意。刺激 premotor cortex,会真的产生动作,但患者否认自己动过。刺激 parietal cortex,则会产生想动甚至觉得已经动了的感觉,但身体实际上根本没动。换句话说,行动和行动感是可以被拆开的。

这件事对机器人设计有一个很具体的启发。我们通常觉得 agency 是一个很神秘的属性,好像某个系统内部必须有一个真正的”我”才算有主动性。但这一章提供了一种更可操作的理解:所谓 agency,也许本质上是一个系统内部的一致性问题。当目标、计划、感觉预期和身体状态预测高度一致,行动就会被体验为”我主动做的”。当这种一致性被打破,就会出现 alien hand syndrome 那样的现象:primary motor cortex 明明产生了动作,但因为这个动作没有嵌入更高层的目标和感觉预期,于是它不再被体验为”我的”动作。对机器人来说,这意味着让人觉得一个机器人”有 agency”,关键可能不在于它内部有多复杂的决策机制,而在于它的动作是否和它表现出的目标、预测、注意力朝向之间保持可感知的一致性。一个动作精确但意图不可读的机器人,反而会让人觉得像是在被遥控。

读完这一章之后,我越来越觉得,脑科学对具身智能最大的启发,不是告诉我们如何模仿某个局部模块,而是提醒我们一个更深的事实:智能从来不是纯粹的大脑算法,而是目标、身体、感觉、延迟、环境和控制层级共同形成的闭环。这一章里反复出现的模式是同一个:大脑不信任单一中枢,不信任无延迟假设,不信任完美感知,不信任原子级控制,而是用分层、预测、冗余和局部自治来应对一个根本不完美的物理世界。

当前具身智能领域最大的不对称也许恰好在这里。我们在感知和高层推理上投入了巨量的算力和数据,但在中间层和底层,在预测、在时序协调、在局部自治回路上,投入的智能仍然很薄。模型越来越大,但脊髓和小脑对应的那一层几乎还是空的。也许未来真正的突破不在于让大脑变得更大,而在于让身体变得更聪明。

注: 本文部分内容经过ChatGPT和Claude润色处理。