Reading notes of Brain and Behavior (VII)

知是行之始,行是知之成。 —王阳明

这一章终于讲到了一个很根本的问题。大脑为什么需要存在?一个很自然但常常被忽略的答案是:为了行动。

本书的前几章都在阐明知觉不是被动接收世界,而是主动构造世界。本章更进一步指出,大脑的终点从来不只是认识世界,而是改变世界。看见、听到、记住、预测、计划、判断,这些能力当然都很重要,但它们之所以重要,往往因为它们最终会落到身体上,变成某种能够改变外部环境的动作。从这个意义出发考虑,运动不是认知的附属品,而是认知存在的主要理由之一。本章开头的《潜水钟与蝶》主角locked-in syndrome的案例是这件事情残酷的佐证。Jean-Dominique Bauby的意识、记忆和想象力仍然存在,但身体几乎完全失去响应,只剩下一只眼睛还能与世界交换信息。他花了二十万次眨眼完成了最后的回忆录。他的意识就是一只渴望自由的蝴蝶,可身体却如同一个潜水钟一般,所有的行动接口都被切断。所谓自我,从来都不是某个孤立漂浮的思维体,而是一个能够对世界施加影响的闭环系统。

高层智能从大脑到脊髓和身体的下沉

这一章里看到的第一个反直觉的事实是:很多我们以为属于高层智能的东西,其实早就被下沉到了脊髓和身体本身。书里讲到,脊髓不仅仅是电缆,而是一个带有局部计算能力的控制系统。它能完成反射,也能通过central pattern generators生成节律性动作(心跳、呼吸、迈步)。最惊人的例子是,猫在脑干与脊髓切断之后,脊髓仍然可以在跑步机上生成简单的步行动作。再往下看,左右交替步态甚至依赖跨越脊髓中线的抑制性连接。有些小鼠因为发育分子缺失,失去了左右交替激活的能力,于是不会像正常动物那样迈步,而会像兔子一样跳着前进。也就是说,行走这种我们以为要由大脑精确规划的行为,在很大程度上其实是一种低层网络自身就具备的动力学模式。大脑很多时候不是在逐时刻解每一根肌肉的控制方程,而更像是在启动、调节、切换和约束这些底层模式。

这一点和今天的具身智能特别相关。当前主流的机器人大模型(VLA)已经不是直接输出每个关节的力矩——它们通常输出末端执行器的位姿增量,再由底层逆运动学和阻抗控制器转换为关节命令,并且会用 action chunking 一次预测一整段轨迹而非逐帧决策。这已经是一种分层。但这个分层仍然是”大脑很重、脊髓很轻”的架构:高层模型承担了几乎全部的感知、判断和轨迹规划,底层控制器只是一个无状态的数学求解器,没有自己的适应性和记忆。 脑科学给出的答案更激进。低层系统不只是被动执行,它自己就有智能——脊髓能独立维持步态节律、完成反射性抗扰和顺应性调节,即使与大脑完全断开也能产生协调的运动模式。高层系统只负责目标、约束和模式切换。真正稳定的行动,不是由一个全知全能的中心实时计算所有细节,而是由多个层级各自拥有能力、共同完成。 对机器人来说,这意味着当前的分层还可以走得更远:语言或高层 policy 负责意图和任务分解,中层负责动作原语和序列组织,底层则不该只是一个逆运动学求解器,而应该像脊髓一样,拥有自己的状态、自己的节律发生器、自己的反射回路——专门处理平衡、抓握、顺应性、步态节律和瞬时误差恢复,不需要等高层模型下一次推理就能自主响应。第七章其实是在提醒我们,智能不该只长在大脑皮层,也应该长在身体里。

另一个很不寻常的发现,是小脑的角色可能比教材里那句”协调运动”复杂得多。书里提到,小脑体积不到整个神经系统的十分之一,却包含比其他所有结构加起来还多的神经元。它是个古老而密集的器官,皮层像晶体一样重复着高度规则的电路结构。这种几乎过于整齐的结构,让人很难不去猜测,它所做的可能是一类非常通用、非常高频、非常低延迟的计算,而不只是某种狭义的运动修饰。书中提到一个非常漂亮的解释是 forward modeling。你接高速运动的球时,手不能去向球现在所在的位置,而必须去向它将来会出现的位置。更麻烦的是,你对自己手臂位置的感觉本身也存在延迟,所以你不仅要预测外界,还要预测自己。小脑很可能就在做这种双重预测。

这个想法和机器人控制中的核心痛点高度对应。真实世界中的控制从来都不是无延迟的:相机有帧延迟,状态估计有误差,执行器有响应延迟,通信有时延,模型推理也有时延。经典控制其实一直有 forward model:Kalman filter 就是状态预测器,MPC 的核心就是在内部模型上做前向 rollout,这些方法用了几十年。真正的瓶颈在于,传统 forward model 依赖手写的物理方程,一旦环境复杂度超过建模能力就会失效。很多控制系统一进非结构化的真实环境就表现急剧下降,不是因为架构里缺少预测这个环节,而是因为它们的预测模型表达能力不够,无法覆盖真实世界的丰富性。这恰好是当前 world model 路线正在尝试解决的问题——用学习到的高维预测模型取代手写方程。 脑科学的启发在这里还指向一个更具体的工程问题。当前主流 VLA 的推理延迟在百毫秒量级,而底层控制回路需要毫秒级响应。这中间差了两个数量级的时间鸿沟,恰好就是一个 learned forward model 需要填补的位置。它不需要像高层策略那样理解语义,只需要在极低延迟下持续预测短时未来的状态演化,补偿感知和执行链路上的滞后。而”预测自己”这一点尤其值得注意:大多数机器人系统隐含假设对自身状态有完美的观测,但真实情况是关节编码器有噪声、柔性关节有形变、末端负载随任务改变惯性参数。小脑式的自我预测,在工程上对应的是对 proprioception 做主动的、带模型的估计,而不是简单地信任传感器读数。

更让我意外的是,小脑并不只和运动相关。书里明确提到,小脑损伤不仅影响协调、节律、平衡和快速交替运动,也可能影响认知与情感,形成 cerebellar cognitive affective syndrome。换句话说,小脑也许不仅是一个动作校准器,还是一个更一般化的时序协调器和预测器。它在运动里负责时间和误差校正,在认知里也可能承担类似角色。这件事值得今天做 AI 和机器人系统的人注意。我们现在很习惯把 cognition 和 action 彻底拆开,仿佛语言模型负责思考,控制器负责执行。但在脑里,这两者似乎共享某些更底层的算法原理,不一定是同一个物理模块,但可能是同一类计算范式:基于时序的预测、误差前馈和快速校正。也许一个更完整的 embodied architecture 里,不需要把运动预测和认知预测硬塞进同一个网络,但应该让不同层级的子系统都具备这种小脑式的能力——持续做跨模态的短时预测和误差前馈修正,而不是把所有预测负担都压在一个大而慢的中枢模型上。

这一章关于 motor cortex 的部分同样很有意思,因为它打破了另一个常识。我们过去很容易把运动皮层想成一张简单的人体地图,也就是 motor homunculus。书里当然承认这种 somatotopic mapping 的存在,但后面的内容表明,这种图景其实非常不完整。首先,皮层中各个身体部位的面积并不反映身体本身的大小,而反映控制精度。手、嘴、舌头占了巨大的区域,不是因为它们大,而是因为它们需要更高分辨率的控制。其次,对单神经元和群体活动的研究发现,primary motor cortex 似乎并不只是按某块肌肉或某个身体部位来编码,它还通过 population coding 的方式表示动作方向。再进一步的研究甚至发现,它可能更接近编码动作的最终姿态、动作类别,甚至是高维信息压缩到一张二维皮层表面上的投影结果。也就是说,大脑并不一定把动作表示成”某块肌肉收缩多少”,而可能把它表示成某个更高维动作流形中的一点,由整群神经元共同投票决定。

有意思的是,机器人控制领域几乎是独立地走到了类似的结论。当前主流的策略网络已经不在原始 actuator space 里做控制。VLA 输出末端执行器位姿,扩散策略在学习到的潜空间里采样,这些本质上都是某种 latent action space。但这些潜空间大多是纯数据驱动压缩出来的,没有什么内在结构。神经科学的启发也许在于:这个潜空间不一定要是一个无结构的连续流形,它也许应该有更丰富的组织方式,比如按动作类别、目标姿态或可供性来结构化,更接近大脑按”生态学上有意义的行为类别”来组织运动表征的方式。两个领域从完全不同的出发点(演化压力和训练效率)收敛到了相似的设计原则,这本身就很值得注意。 书里还有一个很容易被忽视的点。较长时间的皮层刺激会诱发完整动作而不是简单的肌肉抽动,例如把手送到嘴边,或者把手摆成抓取姿势。这说明大脑里的动作表示也许从一开始就是面向完整行为单元的,而不是先有原子级肌肉信号再由高层拼装。这和机器人领域的 action chunking 形成了有趣的呼应。Action chunking 的工程动机其实很具体:逐帧预测动作会导致多模态分布被平均化,一次预测一整段轨迹能绕开这个问题。但结果是,工程上最好用的方案,恰好和大脑的组织方式长得很像,都是以完整行为片段为单位,而不是以原子动作为单位。

书里还提到了镜像神经元。某些神经元不仅在自己执行动作时放电,在观察他人执行相似动作时也会放电,而且对有明确目标的动作响应更强。需要说明的是,镜像神经元是神经科学里争议很大的话题,围绕它的很多宏大解读(意图理解、共情基础等)被认为是过度推断。但抛开那些争议,有一个相对保守的观察仍然有价值:运动系统似乎更偏好用目标和可供性来组织动作,而不是用纯粹的几何轨迹。这个方向在机器人领域有独立的、扎实的工程基础,从 Gibson 的 ecological psychology 到现在的 affordance prediction 网络,不需要镜像神经元来背书,但两边指向同一个方向,还是值得记住。

基底神经节的部分也非常值得注意。书里提到,基底神经节至少有五条不同的闭环,不只是服务于运动,还有眼动、认知、判断、情绪和价值评估。它更像一个启动、维持、终止不同行为过程的门控系统,而不是单纯的运动核团。看 Huntington 和 Parkinson 这两种疾病的对照尤其有意思。前者更像抑制系统先坏掉,于是出现过量和失控的动作以及情绪和认知层面的失抑制。后者则更像兴奋通路和维持行为的能力先坏掉,于是动作贫乏、启动困难、面具脸、步态拖曳。这个对比其实很启发人。一个系统的智能,不只是会不会动,还包括能不能在对的时候开始、在该持续的时候保持、在该停止的时候及时停下。做机器人的人通常更关心 trajectory optimization,但基底神经节提醒我们,行为的门控和切换机制本身同样关键。

运动层级对于智能体架构的启示

前额叶运动层级这一节则让我想到一个很工程的问题。书里把行动拆成一个很清楚的层级,从需求到目标,从目标到策略,从策略到战术,再到具体动作。饥饿不是动作,买三明治也不是动作,走去食堂、伸手拿钱、张嘴说话才是动作。大脑的高层不是直接操纵肌肉,而是在不断把抽象目标重写成更具体、更局部、更即时的控制问题。当前 LLM agent 领域其实已经在沿着这个方向走了。SayCan 让语言模型提议子任务再由底层技能执行,Code as Policies 把高层意图编译成可执行的技能序列,这些本质上都是在做层级式的目标重写。但目前真正难的地方不在于分层本身,而在于两件更具体的事:一是中间层级失败之后如何稳健地回溯和重新规划,而不是整条链路崩掉从头再来;二是抽象目标如何 grounding 到物理约束上,比如”把桌子收拾干净”到底意味着哪些物体要被移到哪里,这需要语义理解和物理场景的深度绑定。第七章里的层级模型不算是一个新发现,但它提醒我们,这种分层如果做得不够深、不够鲁棒,高层 agent 再聪明也没用。

第七章里还有一个我很喜欢的部分,是关于为什么人不能很好地 multitask。书里的解释非常漂亮。感知系统很多步骤是并行的,所以认脸、看场景、听声音这些事情可以很快一起完成。运动系统却不同,它通常要把任务拆成层级和序列,并且很多步骤必须按顺序进行。你不能一边打蛋一边已经把 omelette 煎好了,顺序本身就是计算的一部分。因此,任何借用了运动层级架构的认知任务(比如长除法)都天然更慢,也更容易碰到瓶颈。这里我第一次强烈地意识到,所谓多任务困难,不一定只是注意力资源不够,也可能是计算图拓扑决定了它必须串行。

这个观察对智能体设计的意义,也许主要不是针对物理机器人(物理执行的串行性是做机器人的人早就理解的),而是针对做软件 agent 的社区。很多人希望 LLM agent 能像服务器一样多线程处理各种任务,但一旦这些任务涉及对真实世界的操作,行动本身往往是强序列化的。感知可以并行,行动很多时候必须排队。真正成熟的 embodied architecture 也许应该明确区分并行感知栈和串行行动栈,前者像视觉和听觉系统可以异步运行,后者像运动控制层级必须管理优先级、排队和互斥。否则系统在仿真里看起来能做很多事,一落到真实世界就会因为执行冲突和状态依赖而变得脆弱。

这一章最后最震撼的部分当然是 free will。Libet 实验以及后续研究都指向一个很不舒服的发现:和动作相关的准备活动,可能在我们意识到自己想要行动之前就已经出现了。更进一步,frontopolar cortex 的活动甚至可以在被试意识到自己将要抬左手还是右手之前很多秒,就预测出结果。需要说明的是,Libet 实验在神经科学界一直有争议,尤其是主观报告的计时方法和 readiness potential 的解读都被质疑过,所以不宜把它当作”自由意志不存在”的铁证。但即使搁置哲学争论,有两个刺激实验的结果仍然非常值得注意。刺激 premotor cortex,会真的产生动作,但患者否认自己动过。刺激 parietal cortex,则会产生想动甚至觉得已经动了的感觉,但身体实际上根本没动。换句话说,行动和行动感是可以被拆开的。

这件事对机器人设计有一个很具体的启发。我们通常觉得 agency 是一个很神秘的属性,好像某个系统内部必须有一个真正的”我”才算有主动性。但这一章提供了一种更可操作的理解:所谓 agency,也许本质上是一个系统内部的一致性问题。当目标、计划、感觉预期和身体状态预测高度一致,行动就会被体验为”我主动做的”。当这种一致性被打破,就会出现 alien hand syndrome 那样的现象:primary motor cortex 明明产生了动作,但因为这个动作没有嵌入更高层的目标和感觉预期,于是它不再被体验为”我的”动作。对机器人来说,这意味着让人觉得一个机器人”有 agency”,关键可能不在于它内部有多复杂的决策机制,而在于它的动作是否和它表现出的目标、预测、注意力朝向之间保持可感知的一致性。一个动作精确但意图不可读的机器人,反而会让人觉得像是在被遥控。

读完这一章之后,我越来越觉得,脑科学对具身智能最大的启发,不是告诉我们如何模仿某个局部模块,而是提醒我们一个更深的事实:智能从来不是纯粹的大脑算法,而是目标、身体、感觉、延迟、环境和控制层级共同形成的闭环。这一章里反复出现的模式是同一个:大脑不信任单一中枢,不信任无延迟假设,不信任完美感知,不信任原子级控制,而是用分层、预测、冗余和局部自治来应对一个根本不完美的物理世界。

当前具身智能领域最大的不对称也许恰好在这里。我们在感知和高层推理上投入了巨量的算力和数据,但在中间层和底层,在预测、在时序协调、在局部自治回路上,投入的智能仍然很薄。模型越来越大,但脊髓和小脑对应的那一层几乎还是空的。也许未来真正的突破不在于让大脑变得更大,而在于让身体变得更聪明。

注: 本文部分内容经过ChatGPT和Claude润色处理。

对<智能增长的瓶颈>一文的一些看法

Intelligence is the ability to adapt to change –Stephen Hawking

尤洋是我在谷歌大脑任职期间有过短暂交集的一位朋友。今天读到他写的微信公众号文章:智能增长的瓶颈,不禁有一些感想不吐不快。原文在此处:智能增长的瓶颈

首先智能的核心在我看来就是霍金说的这句话:对于变化的适应能力。这在我看来无疑是一个更本质,更优雅的定义。并且也能完全包含预测和创作的两个场景:预测是基于历史与现状,对未来状态的推断,本质是应对外部不确定性的适应性策略。创作是生成新的、合理的结构(文本、方案、艺术品),本质是为满足新需求或解决新问题而进行的适应性创造。这两者都是智能系统在适应复杂、动态环境时,所展现出的高级行为。而对变化的适应性才是智能的根本目的和核心功能。这里尤洋对智能的定义我觉得是将表现形式和手段当作了本质。

从这个角度出发去谈智能发展的瓶颈,当然也因此过于简单的归因于算力效率的不足。而忽略了范式层面的一些其他瓶颈。

当然,我完全认可他对Transformer并行计算的论断,我同样也认可使用从能源到智能的转换率作为标准之一衡量智能的进展步伐。然而就在他试图建立智能本质的衡量标准时,他犯了第一个错误:那就是认为比GPT快5倍,或者小10倍的模型只是省钱的技术,只是压缩算法而不是智能突破,只有在同等巨大算力下表现更好,才是真理。

此处对于效率与智能关系的割裂,是违反信息论和现代AI发展史的。效率本身就是智能最高的体现。我相信Marcus Hutter一定会同意我的说法 :-P 如果明天你提出一个架构,用20%的参数量达到了GPT-5的效果,这绝对是智能本质的巨大突破,而不仅仅是商业落地问题。实际上,物理学和计算机科学普遍认为,理解一个事物的标志,就是看你能用多短的代码(最小描述长度,MDL)去描述它。一个使用20%算力就达到同等水平的模型,说明它具有更好的归纳偏置(Inductive Bias),这里”少”就是”精”,而”精”就是”智”。

另外,Scaling Law是具有双向性的。这就是说,如果我发现一个20%算力下就能打平Transformer的架构,科研的下一步一定是会立刻把该模型扩大五倍,把剩下的80%算力也充分利用。那么此时,根据缩放定律,这个新的模型将会远远碾压GPT-5。所以节约算力的技术本质上是在提升智能上限。

最后,浮点计算次数才是算力最基本最本质的计量单位。即使我也是曾经从事HPC的人,我仍然不能同意这句话在AI语境里的意义。

FLOPs不等于思考:众所周知,人脑的功耗大约是20瓦,算力换算成FLOPs远低于现在的超算集群,且人脑根本不使用FP进行操作。但是人脑创造了当今世界的一切奇迹。

不同架构的FLOPS产生的价值不同:Mamba/RWKV等架构下的FLOPS产生的价值与Transformer的FLOPS价值不同。system 2 (推理时计算)模型在推理阶段用于搜索验证的FLOPS比预训练时的FLOPS对某些特定任务价值更大。

姑且让我这样定义智能的未来发展趋势:在单位FLOPs内产生最大的熵减,或者更直白的叫法:智能密度。单纯追求堆砌FLOPs肯定只是在比谁家发电多,而不是谁家算法好。

Smart不等于Big。不过更轻盈更高效往往是通往更强大的必经之路。虽然商业化关注如何在小算力下达到同等效果(降本),但科学界更关注这个高效架构在扩大规模(Scale Up)后,是否能突破现有模型的智能天花板。效率的提升,往往意味着掌握了更本质的规律。

接下去,我认为文中最大且最危险的误判就是关于使用高精度FP64提升智能的谬误。作者认为提升精度,甚至于FP64的回归可能是提升智能的瓶颈突破口,并将数值计算的精确性等同于智能的可靠性。

然而,现代深度学习最基本最普遍的理论就是:高维数据分布在一个低维流形上。而神经网络的本质就是学习这个流形的拓扑结构,而非拟合每一个微小的数值扰动。智能的体现恰恰在于抗噪性,即在低精度、高噪声的输入下仍然能输出正确决策。实际上低精度让算力效率和存储效率双双提升,再使用缩放定律来提升智能瓶颈恰恰才是如今的行业趋势。科学计算的本质在于求解高维的微分方程(比如对于天气预测,求解Navier-Stokes方程,对于材料分析,求解薛定谔方程)。使用FP64的原因在于迭代的科学计算过程对于累计误差非常敏感,在非线性系统中,微小的误差会在几千次迭代后指数级放大,导致最终结果完全错误。而AI,或者智能计算的本质在于统计性的模糊正确。本质是寻找高维空间中的概率分布和决策边界。神经网络权重和激活值本身就是从嘈杂的数据中学来的近似值。事实上,低精度引入的随机噪声反而能防止过拟合,迫使模型更加鲁棒。从去年到今年,量化的研究已经将神经网络权重压缩到ternary级别的1.58比特。这完全与走向FP64相反。

至于天气预报和地震预测对比的例子,地震预测之核心难点不是维度爆炸,而是其地下无传感器的黑盒状态。比如我们无法知道数十公里下的岩石应力和摩擦系数等关键参数。对比天气,这类数据的获取显然容易得多。所以并非计算精度不够,而是输入数据缺失。我想,AlphaFold的成功当然并非建立在FP64精度计算上,而是其神经网络架构和基于海量蛋白质数据的学习过程。AGI不必成为一个超级物理模拟器,而且恰恰不应该成为一个超级物理模拟器。

最后,不可免俗的,作者需要回到Rich Sutton的Bitter Lesson来结束文章,做一些提升。然而,通用方法不等于简单懒惰的Scaling。Sutton这里原文的核心在于不要试图把人类的领域知识硬编码到代码里,减少这样的人为归纳偏置,而构建一个能利用算力自动学习这些知识的系统。事实上,这一论断甚至无关算力:从CNN取代SIFT/HOG,到Transformer取代RNN/LSTM等,都是Sutton论断的胜利。真正苦涩的教训的信徒,应该去寻找下一代比Transformer更通用,更少人为约束的架构。

这篇文章在硬件理解和并行计算的直观解释上非常出色,但是作为一篇展望2026年的文章,我很遗憾的预测作者希望发生的很多事情都不会发生甚至会像他预想的方向相反的方向发生。我认为,这几件事情才是2026年及以后智能计算的趋势:

  1. 推理时搜索与规划和Agent Swarm
  2. 数据合成与自我对弈解决数据枯竭问题
  3. 稀疏和低精度带来更高算力效率和计算范式革命
  4. 其他新架构和新学习范式的革命

Reading notes of Brain and Behavior (VI)

I think multimodal kinds of models are pretty interesting - like can you combine text with imagery or audio or video in interesting ways? —Jeff Dean

这篇文章将聚焦《Brain and Behavior》第六章的核心命题:人类如何从纷繁的物理信号中提取有意义的数据。如果说上一章揭示了视觉是大脑主动构建的产物,那么这一章则进一步解构了所有感官系统的本质——它们本质上是一套经过亿万年演化的生物信号采集与编码系统。

感官的边界与超越

我们常说人类有五种感官,但这一分类显然过于傲慢。书中列举的感官清单让人联想到科幻小说中的赛博格改造:除了视觉、听觉、触觉、味觉、嗅觉外,我们还能感知振动、疼痛、温度、加速度、头部重力方位、关节运动轨迹、信息素,甚至膀胱膨胀或肠道拉伸的内部信号。这些传感器遍布全身,从皮肤到内脏,从耳蜗到肌肉纤维。

每一个感官系统的构造都暗含工程学智慧:专用传感器对应特定物理现象,神经网络则负责解码与整合。例如内耳前庭系统既能通过耳石感知重力加速度(像一台生物陀螺仪),又能通过半规管液体流动侦测头部旋转(像一台惯性导航系统)。这些信号最终在脑干汇聚,让我们无需睁眼也能保持平衡。

听觉:分子级精度的机械工程

关于听觉的数据令人震撼:

  • 人耳能检测到氢原子直径级别(10^-9厘米)的空气振动,却不会被空气分子的随机布朗运动干扰

  • 动态范围跨越百万倍(从落叶触地到火箭发射)

  • 频率分辨率达到0.8%-1%(Jacob Collier的惊人Microtonal Music能力)

外耳与中耳像一套精密滤波器,而真正的魔法发生在将机械振动转化为电信号的耳蜗。基底膜上的毛细胞阵列如同傅里叶变换的物理实现,将声音分解为不同频段。这种「标记线编码」(labeled-line coding)让我联想到现代语音识别模型中的梅尔频谱提取——生物系统竟在千万年前就掌握了信号分频技术。

但听觉系统的脆弱性同样惊人:颞叶皮层的次级听觉区若受损,可能导致能够听到声音却无法理解语义或欣赏旋律。这暗示着听觉处理具有层级化模块,就像深度神经网络中不同层提取不同抽象特征。

体感:皮肤上的宇宙

当我们将皮肤视为一个巨型传感器时,其复杂程度远超想象:

  • 触觉感受器能区分0.0002毫米的凹陷(相当于红细胞直径)

  • 痛觉系统采用双重警报机制(快速传导的「锐痛」与慢速传导的「钝痛」)

  • 本体感觉让盲人也能精准系鞋带,却让渐冻症患者在失去它时如同操控陌生躯体

特别值得注意的是感官拓扑映射现象:体感皮层严格遵循身体部位的空间布局,但不同区域的分辨率差异巨大(指尖占据的皮层面积超过整个背部)。这让我想起Transformer模型中的位置编码——生物系统通过物理邻近性编码空间关系,而人工神经网络通过数学嵌入实现类似效果。

多模态整合:大脑的联邦学习

本章最颠覆认知的观点在于:没有任何感官是独立运作的。视觉会扭曲听觉定位(ventriloquism illusion),触觉能改变味觉感知(用叉子材质影响食物甜度判断),前庭信号甚至能欺骗视觉产生自我运动错觉(VR眩晕的生物学基础)。

这引出了著名的绑定问题(Binding Problem)——大脑如何将离散的感官流整合为统一知觉?书中给出的答案是大规模神经互联网络的时间同步。不同感官信号以不同速度传递(光速>声速>触觉传导),但大脑通过预测模型将它们对齐到同一「此刻」。这解释了为何看远处烟花爆炸时,我们感知到的声光同步其实是大脑精心计算的幻觉。

一个细思极恐的结论是:我们永远活在80毫秒前的世界。从光子撞击视网膜到形成意识知觉,神经信号需要经历多级处理与跨模态校对。这意味着当你说「现在」时,这个「现在」早已成为过去。

本章末尾关于时间感知的讨论让我联想到记忆的本质——如果「现在」是大脑多方协商后的延迟共识,那么「过去」是否只是神经网络的权重更新痕迹?在接下来的章节中,关于记忆与注意力的内容或许会给出答案。此刻我的大脑正通过视觉皮层接收屏幕光子,通过听觉皮层处理空调嗡鸣,通过本体感觉确认手指在键盘上的位置——所有这些离散信号将在80毫秒后融合成名为「我正在写作」的知觉。而这一切,都建立在大脑这个预测引擎对世界的持续建模之上。

注: 本文部分内容经过DeepSeek R1润色处理。

Creator Mode

Curiosity: When creators encounter something remarkable—a film, a book, a piece of code, or a business model—they don’t just stop at being impressed. They are driven by a deeper question: How was this made? Curiosity is the fuel of creation, pushing them to dissect, analyze, and understand the inner workings of every masterpiece. Whether it’s an art, technology, or design, a creator’s mind constantly seeks to satisfy an inner desire to learn, explore, and connect the dots.

Being Hands On: The true distinction between a creator and a consumer lies in the desire for ownership and understanding. While consumers may admire and use tools, creators want to push those tools to their limits, tweaking and refining them to suit their own visions. A creator thrives on turning ideas into reality through her own effort, mastering tools, and eventually crafting new ones. It’s this personal capability and constant improvement that defines the creator’s journey.

Patience: In a world that celebrates quick wins and instant results, patience is a rare and invaluable virtue. But true creators understand that mastery comes not from shorcuts but from persistence and deep practice. Whether it’s learning an instrument, perfecting a craft, or coding a groundbreaking algorithm, creators build on strong foundations. They know that incremental progress, compunded over time, leads to breakthroughs. And though society may not reward patience, the slow burn of sustained effort inevitably bears fruit.

Aim for the Best: Creators are not satisfied with mediocrity. They possess an accurate understanding of their own abilities and are relentless in pushing their boundaries. By studying the history of their craft and keeping abreast of the state-of-the-art, they position themselves to drive the field forward. Whether collaborating or celebrating others’ successes, creators know that collective progress benefits everyone. Every great achievement pushes the edge and creates new challenges, and creators are ready to meet them.

Being Innovative: The path of the creator is one of constant evolution. Though they may begin by learning the rules, true creators inevitably reach a point where they seek to break them, striving for originality and innovation. The drive to not repeat oneself, to venture into the unknown, is what fuels breakthroughs. And with patience and a singular focus on excellence, innovation becomes a natural consequence of the creative process.

Enjoy the Process: Creation is not just about the end result; it’s about the journey. True creators find joy in the grind, the moments of frustration, and the exhilaration of problem-solving. The process—the struggle, the breakthroughs, the small wins along the way—is what defines the creator’s experience. As artificial tools proliferate and make tasks easier, the true creator retains control over her mind and craft, embracing every step of the progress, no matter how challenging or mundane.

For all the fellow creators on this beautiful planet, I salute you. Together we will change the world for the better—one creation at a time.

Reading notes of Brain and Behavior (V)

Prediction is very difficult, especially if it’s about the future. —Niels Bohr

这篇文章主要回顾<Brain and Behavior>中关于视觉的第五章。这一章最核心的内容是:视觉并非先天完整并可以自如使用的大脑功能,是一项需要通过后天练习和经验来慢慢学到的技能。我们应该如何理解这句话呢?我们知道,在身体里遍布的传感器是我们了解世界的窗口,眼睛也是其中之一。然而,和其他传感器像大脑发送的电化学信号一样,这些信号需要大脑的不同模块协力完成解码,才能成为我们可以理解的信息和知识。

如果你和我一样并不了解视觉对于大脑的重要程度,下面的信息可能会让你感到惊讶:在大脑中,有大概30%的模块是专门用来处理和视觉相关的信息的。与之对应的,处理触觉的模块只占大脑总量的8%,而处理听觉的模块只占大脑总量的3%。虽然我们的双眼只能捕获到很短波段的电磁波辐射信号(从390纳米到750纳米,占据电磁波可能的波长的十亿分之一),然而我们的大脑却学会了如何仅仅使用这些信息生存并繁荣。

人类的知觉是一个主动的过程,一个生物体并不总需要它所处环境的所有信息,而在大部分时候仅仅主动获取大脑认为必需的信息。为了节约有限的能量资源,很多对周遭世界的理解来自大脑对之前人生经验里获取的先验知识的某种编码(embedding)。使用这种方式,我们的大脑可以快速且低能量的对周围的环境得出知觉结论。这里有很多有趣的例子,例如当我们在欣赏一幅艺术作品时,双眼的运动会聚焦在某些小的区域,从而让我们获知和该区域相关的信息,而双眼并未扫达的区域里的信息虽然通过信号传入了大脑,但仍然会被我们忽略。另外,由于人眼视神经和眼球的结构,在我们的双眼中各有一小块区域无法接受外界传来的光信号,导致我们出现盲区(blind spot)。针对盲区和我们忽略的区域的信息,大脑会自动填充信息。另外,对同样的输入,有些视觉信息会让我们的大脑产生两个相互矛盾并相互竞争的解读。这说明视觉信号的最终解释完成是发生在大脑的高层结构里的。 从这个角度来说,大脑实际上是一个假设生成器,不停的对周围的世界建模并通过狭窄的感知窗口得到的输入来验证和修正内部模型。有一种假设认为,视觉从“无意识的推理”中产生。我们认为我们看到的真实世界其实只是大脑的复杂黑盒运算的结果,而这内部模型的输入不仅来自双眼,还有我们之前的人生经验。

关于视觉(和其他知觉)的另一个重要的结论是:我们的大脑在没有外界传感器输入的情况下也可以产生结果信息。一个很好的例子就是梦境。在梦中,一个人的所有感官基本都处在关闭接收状态,然而我们的大脑仍然可以产生由图像声音和触觉组成的世界体验。一些对监狱囚犯和被关在感官剥夺屋中的人的实验也证明,他们都可以在没有传感器输入的情况下产生逼真的幻觉。因此,正常视觉与幻觉几乎没有区别;它们的区别仅在于它们依赖外部数据的程度。幻觉就是未受外部数据约束的正常视觉。

最后,传统理论中把视觉和其他感觉的信息处理模型看作单向的feed-forward模型有很大缺陷。例如,你可以闭上眼睛幻想画面,你可以看清一个快速运动的物体并在它处于某处之前就先在脑中生成她处于该位置的图像。这些都说明脑中对视觉的处理模型不仅是前向的,而且带有反馈和时循环(feedback and recurrent)。

所有这些结论可以用一句话来总结:Your expectations influence what you see. 我们可以构建出这样一个视觉系统模型:即大脑中的视觉皮层有一个内部模型,这个模型对视觉系统传来的信息首先进行预测,并通过反馈网络告知视觉系统它期待的结果。视觉系统则将眼睛中的感光细胞接收到的信息经过前向网络处理,把它和视觉皮层期待的结果的不同(即感知误差)发回视觉皮层。视觉皮层根据这些反馈更新内部的模型,目的是通过误差调整内部模型以期在未来降低预测出错的概率。这个模型和一项试验结果非常吻合,即:从视觉皮层连接到视觉系统的轴突数量是相反方向的十倍。也就是说,大脑需要更多神经通路向视觉系统输送自己的预测结果,而仅仅需要较少的通路从视觉系统接收预测错误。至此,我们可以区分两个重要且不同的概念:“感觉”(sensation)和“知觉”(perception)。感觉是信号的检测。例如,当运动传感器被触发而打开车库灯时,我们说你的车的运动被“感知”到了。但是,我们没有理由认为运动传感器,一个简单的电路,能够有知觉。视网膜上光子如何被感知以及从那里传递信号的过程是视觉系统向大脑输入信息的过程,也是整个大脑中视觉模块很小的一部分。但是对于世界的知觉,需要更多的东西——具体来说,需要一个内部模型,与输入信号不断比较以发现不匹配之处。

我非常期待本书接下来的内容,那些和记忆还有注意力有关的部分将把“知觉”这个黑盒子打开,让我们一窥内部的结构。我将继续我的旅程。