27 Apr 2026
“If you don’t know where you’re going, any road will get you there.” –Lewis Carroll
孟醒的这篇硅谷见闻,是我近期读到的关于AI产业最有现场感的报道之一。从YC变成滞后指标,到Meta的token消耗排行榜,到xAI的管理崩盘,到酸橙树和燃烧瓶,这些观察都是真实而生动的。然而通篇读下来,我有一个挥之不去的感觉:整篇文章在描述一个加速失控的系统,却几乎没有质疑加速本身的方向是否正确。
这就是我想反驳的核心命题。如果方向是错的,”跟得上”就不是答案,”跟不上”也不是病;停下来反思才是。这与我之前对智能本质的看法完全一致:智能的核心不在于堆砌的速度,而在于熵减的密度。下面就文章中的若干具体论断,分别谈谈我的反驳与认同。
关于”100倍效率提升只兑现了50%”的谬误
文章给出的隐含逻辑是:效率提升了100倍,营收没涨100倍,所以中间存在某种结构性的不解。但我认为,”100倍效率提升”这个前提本身就是误判。
第一个误判在生成侧。Claude Code让代码生成的token吞吐量提升了100倍,但好创意、好架构、好的产品决策的产出效率,真的也提升了100倍吗?vibe coding让所有人都能”抽卡”100次,但抽出100张普通卡和抽出1张SSR卡,价值是完全不同的。在内容创意彻底平权之后,最终被市场认可的好产品的频率,并没有按token吞吐量等比例增长。这恰恰说明,瓶颈从来不在生成,而在判断、品味与方向。讽刺的是,文章在最后讨论”AI builder”招聘难题时其实自己也意识到了这一点:”审美 + AI使用能力”成了新角色的核心,而这恰恰否定了”100倍效率”叙事的前提。
第二个误判,也是更被低估的,在认知侧,cognitive debt。人类对一个系统的理解带宽是有限的。如果AI生成的代码和算法不能被工程师真正吸收和内化,那么我们其实是在以前所未有的速度欠下技术债务、架构债务、知识债务。今天的”100倍生产力”,如果伴随着对底层逻辑的100倍失控,它的真实价值是负的。这不是抽象的担心:我亲身在多个项目里看到了这种现象——团队用Claude Code”完成”了大量工作,但当bug出现在自己生成却没读懂的代码深处时,定位时间反而比纯人写代码时更长。
效率兑现率只有50%而不是100%,可能并不是AI不够强,而是因为另外那50%本来就是幻觉。
关于”Anthropic自己的oncall agent都不好用”
文章把这件事作为一个反例来突出AI还不够强。但我想说,oncall本身就是一个有相当难度的场景,它不应该被当作丈量”AI够不够强”的标尺。
我并不否认,今天的AI在某些方向上已经能做出人类未曾察觉的发现。AI Scientist类的工作里已经出现了真正意义上的novel contribution,我自己每天用Claude Code在自己的研究方向上也在探索no man’s land,这些都是真实的进展。但oncall与”探索式研究”是两类性质不同的问题。研究允许试错、允许走弯路、允许花一周去验证一个想法;oncall要求在一个高度耦合、状态不断变化、且部分根因隐藏在新基础设施内部的系统里,在分钟级别给出正确判断。它考验的不是创造力,而是对一个具体系统当前状态的精确把握,而这恰恰是LLM作为”对人类纸面知识的高维流形进行有损压缩与插值的系统”最薄弱的环节——因为相关知识根本还没被写下来。
更值得追问的是另一个问题:即便有一天AI真的能把oncall做好,我们就应该把它完全交出去吗?我的态度是明确的——不应该。回看历史上的每一次工业革命与技术革命,从蒸汽机到内燃机、从电力到半导体,工具出现了跃升,但人类从未因此放弃对底层细节的把控。机械工程师仍然懂得发动机的热力学,电气工程师仍然懂得电路的物理意义,操作系统工程师仍然懂得寄存器与中断。为什么唯独到了AI时代,”我不需要懂底层,让agent去管”忽然变成了一个可以被认真讨论、甚至被某些公司奉为目标的选项?
我认为这背后的逻辑是危险的。如果有一天连AI模型与agent底层的排错、归因、演进方向都被另一个agent接管,那意味着人类不仅交出了方向盘,还把后视镜和仪表盘一并拆掉了。对底层技术的理解和传承,是当前阶段人类必须坚守的控制点。
关于”停下来的代价比烧错token更大”
这是整篇文章里我最不能同意的一句话,也是我想给出一个暴论的地方:如果你的前进方向是错的,停下来当然是最优选择。
我相信,能在2026年以及未来几年真正成功的AI创业公司,恰恰是那些没有参与疯狂前进,而是停下来寻找蓝海、寻找被错误假设束缚的领域的公司。事实上,今天已经有相当一批”独行侠”在做这件事,名单可以列得比大多数人想象的更长:
林敏(linmin.me)在用第一性原理重新思考学习与推理的算法本质;Felix Petersen(petersen.ai)在尝试跳出主流LLM框架的training paradigm;之前打造过nervana的Nareen Rao创立了Unconv.ai,在做非传统卷积/非传统架构方向的探索;AMI Labs(amilabs.xyz)在基于JEPA做真正的世界模型;Deep Manifold(deepmanifold.ai)在研究神经网络背后的几何与流形结构;Marcus Hutter作为AIXI的提出者,多年如一日地坚持把智能与压缩、最小描述长度联系在一起的理论路径;John Carmack的Keen Technologies则在用一个游戏引擎奇才的工程直觉重新切入AGI。
这股逆流并不只发生在AI圈。可控核聚变方向的几家初创公司在重新定义能源约束的可能性;Isaak Freeman(参见 https://x.com/isaakfreeman/status/2045238887065530533 )在认真地推进brain emulation——把”智能”这件事从软件抽象拉回到神经元尺度的物理基质上重新提问。还有持续学习(continual learning)、极低比特模型压缩、以及低功耗的bio-inspired芯片都是全新的探索方向。
这些人没有一个在Meta的token排行榜上,但他们每一个都在挑战当前范式中某一条被默认为天经地义的隐含假设。这些方向才是未来。
更重要的是:当这些方向产生突破时,它们不会去现有的benchmark上刷榜,因为现有benchmark本身就是上一个范式定义出来的。它们会定义新的榜单。这是我对Sutton的Bitter Lesson最深的体会:苦涩的教训不是”算力多者得天下”,而是”绑定既有经验范式者必败”。
文章里那些”不敢停”的人,本质上是在用速度掩盖方向焦虑,因为他们隐约知道方向不一定对,但又没有勇气去寻找新方向,只能选择把油门踩到底。这在行为经济学里有个名字,叫做action bias:当人面对不确定性时,倾向于用”做点什么”来缓解焦虑,哪怕”不做”在数学上才是最优解。
关于xAI管理崩盘与researcher焦虑
这一部分我基本同意。xAI的故事,确实是制造业管理思维不适用于大模型公司的一个范例。马斯克擅长的是有清晰物理边界的系统工程:火箭发动机、电池工厂、生产线,这些场景里,关键杠杆点是稀疏且可识别的。但AI研究的边界本身就是模糊和移动的,不存在一个”压缩deadline即可攻克”的关键点。脉冲式管理在SpaceX有效是因为他在跟物理定律赛跑;在AI,他需要跟一个会自适应、会偷家的Anthropic赛跑,这是完全不同的博弈结构。
关于researcher被替代,我想加一句:将被替代的researcher,必将是本就不该在这个领域里的mediocre ones。一个真正的researcher不是”跑实验、写论文”的执行者,而是能提出新问题、识别新范式、定义新评价标准的人。如果你的工作可以被AI Scientist自动化,那只能说明你做的是”已知问题的求解”而非”未知问题的发现”。这一类人的退场,对整个领域来说是一次清洗,而不是损失。
关于算力瓶颈与英伟达的统治
文章描述的算力稀缺、内存厂商扩产周期、neo cloud雨后春笋,这些都是真实的现状描述。但作者隐含的结论是:所以算力是壁垒,所以英伟达是结构性赢家,所以2028年前没人能拉开差距。
这恰恰是我前面说的”被错误假设束缚”。让我们回到第一性原理来提问:我们真的有必要用这么大的卡、这么大的集群去serve智能吗?智能的密度已经被最大化了吗?
如果模型可以做小,并且保持精度,那么SLA一定会更好,因为推理路径更短、故障域更小、可冗余度更高。如果我们找到了在低精度(2bit、甚至ternary)上完美保存巨大模型的高维流形信息的方法,而我相信我们正在路上,那么我们一定会看到一个全新的计算范式,它不依赖于英伟达的tensor core,也不依赖于HBM3e的产能爬坡。
数据中心遭到的社会反对,根源不是数据中心本身,而是”模型规模和infra规模会无止境增长”这个隐含假设。如果我们打破这个假设,反对就消失了。一个能在iPhone上跑Claude级别模型的世界,不需要缅因州的数据中心,也不需要Meta的token排行榜。
关于估值框架
文章里有一句话我觉得是整篇最一针见血的洞察:做垂直agent的倍数最低(5倍),做通用agent的倍数更高(10倍),做模型的最高(20–30倍)。
把这句话翻译成更本质的语言就是:谁距离智能的本质越近,谁的倍数就越高。这是一个非常优雅的市场判断,它在经济维度上重述了我之前说的,智能的衡量在于熵减密度而非堆砌速度。
这也解释了为什么二级市场会率先重新定价SaaS:SaaS距离智能的本质太远,它只是工作流的数字化,永远只能赚一个”流程规整费”。
关于燃烧瓶、AI暗杀名单与可能到来的经济崩溃
这是文章最沉重的一部分。我想给出的答案,与我对整个加速狂热的回应是一致的:做最接近智能本质的技术创新,并且把所有成果对全人类公开。
历史上践行这条路的人是谁?尼古拉·特斯拉,他在交流电上做出了影响全人类的让步。Linus Torvalds,他把Linux和Git交给了世界。Aaron Swartz,他为知识自由付出了生命。John Carmack,一次又一次地把id Tech引擎开源。这些人都没有遭到燃烧瓶。
相比之下,OpenAI从一个非营利组织演变为一家估值数千亿美金的封闭公司;Anthropic用”安全”的名义把模型权重锁起来。我并不为他们CEO收到的威胁辩护暴力,但我认为,他们今天面对的社会反弹,与他们没有像DeepSeek那样深度求索智能本质(“深度求索”这个名字本身就是一个宣言)、没有像早期互联网精神那样将成果还给人类,是有因果关系的。
我自己有一段亲身经历可以参照。2017–2018年我在Google Brain任职,那时穿着Google Brain的卫衣或T恤在机场候机时,确实偶尔会得到不友善的言论,人们把对大公司算法、隐私、就业冲击的不满,投射到了我身上。但与此同时,DeepMind在用AlphaFold真正改写了结构生物学,用AlphaGo重新定义了科学探索的方式。今天,sama做了什么(World Coins的真实目的是什么?他在听证会上说的我不拿薪水只因热爱和他被袭击的豪宅放在一起,说明了什么?)Dario的格局又在哪里?
我并不是说”卖API”本身就是原罪,DeepSeek也在卖API,但DeepSeek把权重和方法开源了。我隐约觉得,AI的开源本质是一件不能丢掉的事。这其实关乎一个非常具体的二选一:在那个无法被外部窥视的黑盒后面,你最终选择服务谁?是政府的监控合同?是军队的目标识别系统?是某个超大型企业的成本削减项目?还是把推理成本与智能成本一起压低,让从硅谷到古巴、从首尔到加沙、从内罗毕到喀什的每一个普通人都能真正使用上AI?这两条路并非细节差异,而是会产生两个完全不同的未来。前者把智能变成一种新的稀缺特权——像中世纪的识字能力一样被少数机构垄断;后者才是真正意义上”造福人类”的兑现。OpenAI早期的章程曾明确指向后者,今天他们走向了哪里,每个人心里都清楚。
如果AI最后真的让癌症变成慢性病,那一定不会是因为某家公司的API卖得贵,而是因为某个开源模型让全世界的biologist都能在自己的实验室里跑起来。Dario引用的那句”癌症已经被攻克”,如果停留在Anthropic的内部演讲里,就是空话。
结语
我同意孟的那个观察:硅谷自己都跟不上自己了。但我的结论与他相反。
跟不上不是病,而是症状。病在方向。当所有人都在用同一个范式(更大模型、更多token、更密集GPU)疯狂加速时,”跟不上”恰恰是这个范式即将耗尽的信号。在这种时候,真正的机会不在赛道里,而在赛道之外:在那些还没有被定义benchmark的领域,在那些智能密度可以提升一个数量级的方向,在那些可以让普通人从AI浪潮中真正受益、而不是被AI替代的开放生态里。
孟在文章结尾说,希望孩子长大的世界里,多一些被AI治愈的人,而不是更多燃烧瓶和枪声。我深以为然。但要走到那个世界,我们需要的不是更多的token,而是更多敢停下来、敢往与众不同的方向走、并且认真思考”成果应该如何流向社会”这个问题的研究者和创业者。
我并不天真地认为”全部开源、全部免费”就是终极答案。这里至少有两层真实存在的张力。第一层是危险性:技术总会有一部分落入意图不善的人手里,这是任何颠覆性发明从印刷术到核能都绕不过去的事。但与此对应的反问也同样不可回避——谁有资格来定义”危险者”?当”安全”的解释权被少数几家公司或几国政府独占时,”安全”本身就会变成新的权力工具。第二层是可持续性:技术的发明人也需要活下去,需要从自己创造的东西里获得合理回报,否则下一代研究者根本不会出现。把这两个问题诚实地摆出来,比假装它们不存在要重要得多。
我自己倾向于这样一个粗略的方向:核心的科学成果(架构、方法、对智能本质的理解)应当尽可能地公开和被复现,因为这是文明级别的公共品;而工程化、产品化、企业级服务这一层,让市场充分发挥作用、让发明者获得应得的回报,是完全合理的。Linux和Red Hat、PostgreSQL和它周围的商业生态,已经反复证明了这种”科学开放、工程商业”的分层是可以同时跑通的。今天AI产业最大的扭曲,是把这两层混在一起,用”安全”的名义把第一层也一起锁住,再用第一层的封闭去支撑第二层的高估值。这不是不可逆的。
少则得,多则惑。
这是《道德经》第二十二章里的话,也是2026年这一刻最值得AI从业者反复念诵的话。
05 Apr 2026
“My experience is what I agree I attend to.”
— William James, Principles of Psychology (1890)
在前几章中,作者已经反复动摇了一个根深蒂固的直觉:知觉是一个由外界刺激驱动、再由大脑逐步加工的忠实映射过程。到了这一章,这种动摇被推到了一个更激进的位置。问题不再只是”我们是否准确地看见了世界”,而是转向一个更基本的层面:我们所经验到的内容,本身在多大程度上是由注意力的选择所构成的?如果说前几章是在讨论知觉的构造性(constructive nature),那么这一章则是在讨论知觉的选择性(selective nature),并且进一步追问:在一个具有多层调制与竞争机制的系统中,什么样的信息会被允许进入那个我们称之为”经验”的层面,什么样的信息则会在尚未被察觉之前就已经被系统性地排除在外。
一、没有注意力就没有觉知
作者在这里不断回到一个并不新颖、但在实验语境中被反复验证的核心观察:我们感受到什么,取决于我们注意什么。但与哲学式的表述不同,本章更强调的是,这种”取决于”并不是一种后验的解释关系,而是一种前置的筛选机制——并不是我们先完整地获得了全部视觉输入,然后再从中挑选重点;而是大量输入在到达有意识觉知之前,就已经在皮层内的竞争中落败,从而被排除在意识之外。
这一点在变化盲视(change blindness)和非注意盲视(inattentional blindness)等现象中体现得尤为清楚。
变化盲视的经典实验令人印象深刻:被试在校园中被一个假装问路的实验者搭话,对话进行到一半时,两个搬运工抬着一扇大门从两人之间粗暴地穿过,门后面问路的人已经被换成了另一个完全不同的人——只有大约 50% 的被试注意到了对话者已经换人(Simons & Levin, 1998)。在实验室版本中,被试同样无法察觉图像中的大幅度变化,前提是变化发生时存在一个短暂的视觉中断(如闪烁、翻页、甚至一次眨眼)。更有趣的是,即便中断不覆盖变化区域本身——仅仅是屏幕上弹出的无关”泥点”(mudsplash)——也足以使变化逃过意识(O’Regan et al., 1999)。泥点吸引了注意力,变化便从经验中消失。
非注意盲视则以更戏剧化的方式揭示了同样的原理。在 Simons & Chabris(1999)的经典实验中,被试被要求数视频中篮球传球次数时,一个穿着大猩猩服装的人从画面中缓慢走过、停下来捶胸、然后离开——近半数被试完全没有看到。当任务难度增加时,注意到大猩猩的比例降至仅 8%。
但这里有一个关键的区分值得强调:被试是在当时就没有处理这些信息(blindness),还是处理了但事后忘记了(amnesia)?Rees 等人(1999)的 neuroimaging 实验直接回答了这个问题:当被试注意字母流时,额叶、顶叶和颞叶的广泛网络对真实单词和无意义字符串表现出不同的激活模式;但当注意力转向叠加的图片流时,这些脑区对真实单词和无意义字符串的激活完全没有区分。也就是说,在注意力缺失的情况下,这些区域实际上”看不见”眼前的文字——不是事后忘记,而是在呈现当时就没有被处理。
这个 blindness vs. amnesia 的区分对于理解本章的核心论点至关重要:注意力的选择不是一个后验的过滤器,而是一个前置的门控。就像一个 inference engine 在 prefill 阶段就决定了哪些 token 进入 KV cache——没有进入 cache 的 token 不是被遗忘了,而是从未被编码。
作者还特别提到,魔术师可能比哲学家更早、也更熟练地把握了注意力的运作方式。Leibniz 在 17 世纪就描述过大量知觉不伴随觉知的现象,William James 在 1890 年给出了经典表述,但魔术师对注意力操控的实践可能更加古老。值得注意的是教材中对 covert misdirection 的区分:在这种情况下,观众的目光仍然注视着关键物体,但注意力已被引导到别处——被试错过了事件,不是因为没有看向那里,而是因为注意力不在那里。Gaze ≠ attention。这种解离在概念上非常重要:它直接说明了,物理上的信号抵达(光子到达视网膜,甚至目光固定在目标上)并不等于信息被系统处理。
二、研究注意力与觉知的实验范式
如何在实验室中精确地研究注意力和觉知?教材系统介绍了三类范式:
朝向范式(orienting paradigm),由 Posner(1980)提出,通过反应时间来度量空间注意力。被试注视中央十字,在有效线索(箭头正确指向目标位置)和无效线索(箭头指向错误位置)条件下比较反应时间。有效线索带来反应时间收益(benefit),无效线索带来反应时间代价(cost)。这一范式可以分别探测自主性(endogenous/top-down)和非自主性(exogenous/bottom-up)注意:前者由中央箭头引导(被试自主选择注意方向),后者由外周闪烁引发(注意力被外界刺激自动捕获)。
oddball 范式,通过 EEG/MEG/fMRI 记录脑对偏差刺激的反应。在一长串重复标准刺激中偶尔插入一个在形状、颜色或亮度上不同的”oddball”刺激,比较脑对任务相关和任务无关 oddball 的反应差异。oddball 范式中激活的脑区与朝向范式有显著重叠(顶叶、额叶、高阶感觉皮层),但位置略偏下方——更靠近颞顶联合区(temporoparietal junction)和腹外侧前额叶。
知觉竞争(perceptual rivalry),特别是双眼竞争(binocular rivalry)。向两只眼睛呈现完全不同的图像时,知觉并不是两者的混合,而是以全有或全无的方式交替占据意识。这为研究意识提供了一个独特的实验窗口:感觉输入保持恒定,但主观知觉在变化。通过比较知觉切换前后的脑活动,可以将意识的神经关联从纯粹的感觉处理中分离出来。
三、注意力与觉知的神经机制:额顶网络
过去二十年中,大量研究致力于寻找所谓的意识神经关联物(neural correlates of consciousness, NCC)。一个反复出现的核心发现是:单纯的感觉皮层激活不足以产生有意识知觉,还需要激活扩展到额叶和顶叶的联合皮层网络。
以变化盲视为例。当被试看到面孔或房屋图像发生变化但没有察觉时,梭状回面孔区(fusiform face area)和海马旁回位置区(parahippocampal place area)仍然会激活——说明高阶视觉区确实处理了变化信息。但这种激活并没有扩散到视觉皮层之外。只有当被试真正意识到变化时,才出现外侧前额叶和顶叶皮层的广泛激活(Beck et al., 2001)。经颅磁刺激(TMS)扰乱右侧顶叶活动会改变变化盲视的发生率,进一步支持了这些区域对有意识知觉的因果性贡献。
在非注意盲视、掩蔽(masking)和双眼竞争的 fMRI 研究中,同样的模式反复出现:无意识处理局限于感觉皮层,有意识知觉则伴随着一个包含外侧前额叶、内侧前额叶、顶叶和颞叶区域的广泛网络的同步激活。
偏侧忽视(hemineglect)从损伤侧提供了互补的证据。右侧顶叶损伤后,患者 Timothy 忽略空间左半侧的一切——不仅是视觉事件,还包括触觉和听觉刺激。他只吃盘子右半边的食物,只穿右半边的袖子,画钟表时所有数字都挤在右半边。但他的视觉系统本身完好无损——眼科检查显示视野完整。问题不在于感觉输入,而在于注意力本身。更极端的案例中,一位 84 岁的患者 Sarina 不仅忽视左侧,还否认自己有任何偏瘫(anosognosia),甚至坚信自己的左臂属于她的母亲(somatoparaphrenia)。当通过向左耳注入冷水来刺激前庭系统时,偏侧忽视暂时缓解——患者重新意识到左侧世界,也重新”认领”了自己的左臂。数小时后,效果消退,她又开始认为左臂属于她母亲。
fMRI 研究进一步揭示了”被忽视”刺激在脑中的命运。在消退(extinction)患者中,当左侧面孔因右侧竞争刺激而未被察觉时,右侧初级视觉皮层和下颞叶视觉皮层仍然对该面孔产生激活——但激活没有扩散到额顶网络。在患者偶尔察觉到左侧刺激的试次中,初级视觉皮层与左侧额叶、顶叶和前颞叶区域之间出现了同步化。
这些发现共同支持一个结论:感觉皮层的局部激活是必要的但远不充分的——有意识知觉需要信息跨越某种整合阈值,进入额顶联合区构成的广泛网络。
但这里需要指出的是,并不存在一个单一的、固定的”注意力网络”。朝向范式激活的是包括顶内沟(intraparietal sulcus)、额叶眼动区(frontal eye field)、前扣带回皮层在内的网络,空间导航任务激活的则是更内侧的网络(包括楔前叶、压后皮层、海马旁回),注意他人心理状态的任务激活内侧前额叶和楔前叶,注意自身内部感觉的任务突出前脑岛。这些不同形式的注意力有一个共同特征:它们一般不涉及初级感觉或运动皮层,而是涉及桥接高阶知觉与行动的联合区。
四、皮层内的竞争与调制:偏向竞争模型
如果从宏观脑区下沉到神经元群体层面,可以看到一种更具结构性的描述。在偏向竞争模型(biased-competition model)中,不同刺激对应的神经元群体在同一区域内同时存在并相互竞争。注意力的作用不是简单地”打开”某一通路,而是通过来自高阶区域(如前额叶皮层)的下行输入,改变不同群体之间的相对增益,使某一表征在竞争中胜出。
在 V4 区域的单细胞记录中,当猴子需要注意感受野内的某个刺激时,神经元的反应被推向该刺激——即使另一个刺激同时存在于同一感受野内(Moran & Desimone, 1985)。注意力增加了对被注意刺激的响应增益(gain),降低了激活阈值,但并不改变神经元的特征选择性(如偏好朝向或运动方向不变)。
然而,单神经元效应只是故事的一小部分。在 Cohen & Maunsell(2009)的实验中,当猴子注意某个空间位置时,V4 神经元对目标事件的放电率增加很小——通常只有每秒几个 spike。但猴子的行为表现从检测约 40% 的非注意目标飙升到近 100% 的注意目标。真正的信噪比提升发生在群体层面:注意力的最大效应不是增强信号本身,而是消除群体内的关联噪声(correlated noise)。
这个发现对于理解注意力机制至关重要。非关联噪声(每个神经元独立的随机波动)可以通过简单的群体平均来消除;但关联噪声(多个神经元以相同模式波动)无论怎么平均都消除不了。教材用了一个生动的类比:从非关联噪声中提取信号就像在嘈杂的人群中听一场演讲——困难但可行;从关联噪声中提取信号则像在全场齐声喊口号的人群中听同一场演讲——除非你能让人群安静下来。注意力正是让神经元群体中的关联噪声”安静下来”的机制。
五、同步性:不是答案本身,而是信息整合的机制
注意力不仅调制放电率,还改变神经活动的同步模式。同步性(synchronization)的重要性在于它能将分布在不同区域的神经元的活动连接成一个协调的整体。如果一个神经元接收来自多个源的输入,当这些输入以协调方式放电时,该神经元更可能被激活;当输入不协调时,则不太可能。
在视觉注意实验中,注意力增强了 V4 神经元与局部场电位之间的 gamma 频段(~40 Hz)同步,同时减弱了 alpha 频段(~10 Hz)同步。在更大尺度上,当猫注意一个视觉刺激时,从初级视觉皮层到视觉联合皮层到体感联合皮层再到初级运动皮层的一连串区域之间的同步性增强——在任务预期阶段开始增强,在任务执行期间进一步增强,任务完成后消散。
但这里需要对一种常见的过度简化进行修正:同步并不等于意识。
教材明确指出了反例。在深度慢波睡眠中,全皮层范围的低频同步振荡非常强大,但主观经验极少甚至不存在。如果把同步推到极端——让所有皮层神经元都同步放电——结果不是注意力或觉知,而是癫痫发作。全面性强直-阵挛发作期间,患者完全丧失意识。
那么同步性的真正意义是什么?教材在这里引入了一个关于信息状态(information states)的论述,而这直接连接到本章最后讨论的 Tononi 的整合信息理论(integrated information theory, IIT)。关键洞察是:同步性本身不是意识的成分,而是允许系统内的神经元将自身组织成大量不同的功能性活动模式的机制。想象一个 100 个 LED 灯的阵列,每个可以开或关。如果每个 LED 完全独立(不同步),就只有随机噪声。如果所有 LED 完全同步(全开或全关),就只有两个状态。但如果通过部分同步将 LED 组织成可识别的模式——字母、数字、箭头——就可以表达巨大数量的不同信息状态。意识需要的不是单纯的同步,也不是单纯的信息量,而是两者的结合:高度整合的信息。
六、意识的状态与内容:一个关键的架构区分
到目前为止的讨论主要涉及意识的内容(contents of consciousness)——即我们在特定时刻有意识地经验到什么。但教材在这一章中引入了一个同等重要的区分:意识的状态(state of consciousness)。要拥有任何主观经验,我们首先需要处于一个有意识的状态。
这个区分具有清晰的解剖学对应:
- 内容由额顶联合皮层网络决定——正如偏侧忽视所证明的,这些区域的损伤导致意识内容的缺失(忽略左半侧世界),但患者仍然是清醒的。
- 状态由皮层下结构维持——特别是中脑网状结构(reticular formation)和丘脑板内核(intralaminar nuclei)。这些区域的损伤导致的不是内容的缺失,而是意识状态本身的崩溃——昏迷。
昏迷与植物状态。昏迷患者无法被唤醒,不睁眼,不对疼痛正常反应,但脑代谢仍维持在正常水平的约 50%,EEG 仍有低频活动。当幸运的患者从昏迷中恢复时,PET 成像显示恢复活动的不是低级感觉和运动皮层(它们的活动在昏迷期间变化不大),而是那些我们已经反复看到的高阶联合区——外侧和内侧的前额叶与顶叶皮层。
更引人注目的是植物状态的研究。植物状态患者恢复了清醒-睡眠周期(会睁眼),但没有意识的迹象。在这些患者中,简单的听觉刺激仍能激活初级听觉皮层,疼痛刺激仍能激活脑干、丘脑和初级感觉皮层——但激活不会扩散到高阶联合网络。初级感觉活动被有效隔离,刺激无法上升到有意识觉知的层面。
丘脑的核心角色。维持意识状态的关键脑区不在皮层本身,而在中脑网状结构和丘脑板内核。网状结构的神经元在清醒时以高频、持续(tonic)模式放电,维持皮层的高频低幅 EEG 模式。当这些神经元切换到低频、爆发(phasic)模式时,皮层 EEG 转入深度睡眠或昏迷特征的低频高幅模式。
丘脑板内核与网状结构密切连接,同样对维持觉醒至关重要。在一个引人注目的临床案例中,一位因暴力袭击导致严重脑损伤的患者在最小意识状态下度过了六年多。在确认其语言功能网络仍然完整后,神经外科医生在其丘脑板内核植入了深部脑刺激电极。刺激开启后,这位几乎无反应了七年的患者开始转头朝向声音、吞咽放在舌头上的食物、说出简单句子,最终能够与家人交流、观看电影、甚至在适当时候笑出来(Schiff et al., 2007)。
教材将丘脑的角色比作交响乐团的指挥——确保所有不同的演奏者保持同步、参与同一任务、以协调的方式运作。没有这个丘脑”指挥”,各个皮层区域仍然有活动,但活动无法被组装成一个有用的整体。
这里有一个与 LLM 系统架构的类比值得记录:丘脑的板内核-网状结构系统与皮层的关系,有点像 serving infrastructure 中的调度层与计算层的关系。各个 GPU worker(皮层区域)可以独立运行 kernel,但如果调度器(丘脑)崩溃,整个系统虽然硬件完好,却无法处理任何有意义的请求。偏侧忽视则更像是 attention head 的部分损坏——系统仍然在线,但 context window 的某一半被系统性地丢弃。
七、睡眠与麻醉:拥有完整硬件但失去意识
如果说昏迷和植物状态是因为硬件损伤而导致的意识丧失,那么深度睡眠和全身麻醉则证明了一个更微妙的观点:即使解剖通路完全无损,仅仅改变神经活动的模式就足以使意识从有到无地切换。
睡眠。在非 REM 深度睡眠中,脑代谢整体下降,外侧前额叶、顶叶皮层以及内侧前额叶和楔前叶的降幅尤其显著——这些正是清醒时”默认模式”下最活跃的区域。但如果观察单个皮层神经元,它们的放电率常常接近甚至高于清醒水平。真正改变的是节律:清醒状态的高频长程同步振荡消散了,取而代之的是低于 4 Hz 的慢振荡。
这种节律变化的效果是皮层区域之间的通讯解耦。fMRI 研究显示,深度睡眠中内侧前额叶与顶叶皮层之间的通常耦合被破坏。更直接的证据来自 TMS 实验:在清醒状态下,向前运动皮层施加一个 TMS 脉冲,激活会在随后几百毫秒内在前额叶和顶叶区域之间来回回荡;在非 REM 睡眠中,同样的脉冲在局部引发强烈激活,但激活无法扩散到脑的其他区域(Massimini et al., 2005)。所以深度睡眠看起来不像是寂静,而更像是不协调的喧嚣——神经元没有沉默,而是各自进行着数百个独立的对话,而不是一场大规模的协调讨论。
麻醉。全身麻醉提供了一个更可控的实验窗口。随着麻醉剂量增加,脑代谢逐步下降(可低至正常水平的 40%,相比深度睡眠的约 60%),EEG 从清醒模式转入深度睡眠模式再转入 burst-suppression 模式。在这个连续谱的某个位置,患者从意识突然切换到无意识——是一个翻转开关(flip switch),而不是调光器(dimmer switch)。
在这个切换点,neuroimaging 对多种不同作用机制的麻醉剂几乎都观察到一组共同的发现:高阶联合皮层(前额叶和顶叶,尤其是楔前叶和内侧前额叶)活动的显著下降,以及丘脑活动的突然下降。在动物实验中,将微量麻醉剂直接注射进丘脑板内核就足以使动物进入无意识状态;反过来,对被麻醉的动物电刺激丘脑板内核,可以将其唤醒到有意识状态。
麻醉破坏的核心机制是丘脑-皮层之间的功能同步。丘脑神经元在麻醉作用下变得超极化(hyperpolarized),从高频 tonic 放电切换到低频 bursting 模式,导致它们无法响应来自皮层的输入。整个系统的长程协调通讯崩溃——不是因为解剖连接断裂,而是因为功能同步的丧失。TMS 实验再次确认:麻醉状态下,对前额叶的脉冲无法像清醒时那样扩散到远处的皮层区域。
八、意识理论
本章最后一节讨论了三种主要的意识理论框架。
笛卡尔二元论在 21 世纪几乎没有神经科学家为之辩护。大量证据表明,直觉上”非物质”的心智能力——情感、知觉、动机、意识——都与脑中具体的、精细的、脆弱的物质过程紧密绑定。切断通往初级视觉皮层的几根白质纤维,主观视觉就消失。阻断中脑腹侧被盖区某一特定神经元群体中某一类型的钙通道,其放电模式从 tonic 转为 phasic——意识的整个纸牌屋就此坍塌。
功能主义与全局工作空间理论。在功能主义框架下,心理状态取决于其执行的功能角色,而非实现它们的具体硬件。其中高阶理论(higher-order theory)提出,一个刺激的低阶表征(如梭状回面孔区对面孔的激活)本身不足以产生有意识知觉,还需要一个高阶表征”关于”该低阶表征——这与偏侧忽视患者和变化盲视实验中的发现一致。
Baars(2005)的全局工作空间理论(global workspace theory)提供了一个更具体的框架。在这个理论中,脑被组织为一系列相对专化的并行处理器(视觉知觉、听觉知觉、空间定位、动作规划、目标设定、价值判定等),意识是一种将所有这些不同功能的活动协调为一个整合整体的方法。它通过创建一个”全局工作空间”来实现这一点,使意识的内容不仅对某个局部脑功能可用,而是对脑的所有功能全局可用。一个刺激从视觉通路的无意识背景处理进入全局工作空间,就意味着它进入了意识前景。
在解剖学上,全局工作空间被假设对应于脑中最高阶的神经元——那些在突触跳数上距离神经系统外周端(视网膜、耳蜗、外周神经、神经肌肉接头)最远的神经元。这正是额顶联合皮层——它们最适合将脑的多种功能连接在一起,因此也最核心于有意识知觉。这个预测与本章回顾的绝大多数发现一致:额顶联合区与低级感觉和运动区之间的同步化对于主观经验的涌现是必需的。
这里有一个与 LLM 的类比值得记录:全局工作空间的概念和 transformer 中 attention 机制的全局广播功能之间存在结构性的相似。在 transformer 中,每个 token 的表征经过 self-attention 后,原则上可以整合来自序列中所有其他位置的信息——这就是一种”全局可用性”。但实际上,context window 的有限长度和 attention 的 softmax 分布意味着只有一小部分信息能获得显著的 attention weight,进入当前 token 的有效表征。类比来看,额顶工作空间就像是 context window 本身——只有成功竞争进入这个 window 的信息才被”意识”到,而绝大多数输入虽然经过了底层的 feature extraction(感觉皮层),却从未进入全局可访问的状态。
整合信息理论(IIT)。Tononi 提出的整合信息理论是本章讨论的第三种理论框架,也是与之前关于同步性的讨论直接呼应的理论。该理论提出意识具有两个关键性质:它在主观上是信息性的(informative)——经验”红色”意味着排除了所有其他可能的经验;同时它是高度整合的(integrated)——我们通常不会将一张面孔经验为视网膜上独立的明暗斑块。因此,一个有用的意识度量应该同时捕捉信息量和信息整合度。
该理论由此提出了一个名为 ϕ(phi)的量度。教材用一个社会网络的类比来解释:100 个人配对私聊(50 对独立对话)= 高信息但低整合 = 低 ϕ;100 个人齐声喊口号 = 低信息但高整合 = 同样低 ϕ;100 个人分成若干委员会、各有不同任务、但委员会领导之间保持高层通讯 = 既有高信息又有高整合 = 高 ϕ。IIT 预测意识程度与 ϕ 正相关。
这就解释了为什么广泛的同步并不直接等同于意识。麻醉下,长程同步丧失,脑像 50 对独立私聊——高信息但无整合。癫痫发作时,全皮层同步放电,脑像齐声喊口号——高整合但几乎无信息(只有 on/off 两个状态)。清醒意识下,部分整合与部分独立的平衡允许系统进入最大数量的不同信息状态——这才是意识所需要的条件。
九、一个极端案例:同一个人的看见与失明
在上述实验与理论讨论之外,引入一个更极端的临床案例可以更直观地看到这些机制的作用方式——这也将上述主要在皮层层面讨论的注意力调制机制,向下延伸到了皮层下通路。
Strasburger & Waldvogel(2015)报告了一位解离性身份障碍(DID)患者 B.T.。该患者在一次颅脑外伤后逐渐发展为完全失明,被诊断为皮层性失明,此后 13 年一直带着导盲犬生活。在心理治疗第四年,B.T. 在一个青少年男性人格状态中突然认出了杂志封面上的几个完整单词——有趣的是,最初的恢复局限于整词识别而不包括对构成这些词的单个字母的识别。随后,视觉能力在这一人格状态中迅速扩展到所有可见物体,并通过催眠技术逐步推广到其他人格状态。在数月之内,越来越多的”看得见”的人格状态与越来越少的”完全失明”的状态共存——而两者之间的切换可以在数秒内发生。
关键的电生理学证据在于:在”看得见”的人格状态下,pattern VEP 正常且可重复,P100 潜伏期为 104–106 ms,振幅超过 10 μV;但在随后的”失明”人格状态下——仅仅间隔数分钟——无论是瞬态刺激还是稳态刺激,均无法记录到可靠的 pattern VEP。
这一结果的重要性在于它远比”信息被处理了但没有进入意识”更为极端。VEP 的消失意味着视觉信息可能在到达 V1 之前就已被阻断——论文明确指出”the incoming neural information is blocked in some way in the primary pathway, that is, in LGN or V1”。而数秒内的切换速度排除了任何基于神经可塑性或突触重组的解释。
Strasburger & Waldvogel 将这一发现置于已知的视觉信号调制机制的语境中来解释。在双眼竞争期间,Wunderlich et al.(2005)和 Haynes et al.(2005)独立地通过 fMRI 在人类 LGN(外侧膝状体)中发现了眼别特异的活动调制,两组作者都认为 LGN 在眼别优势和抑制中起核心作用,并提出 LGN 可能充当视觉觉知的早期守门人(early gatekeeper)。空间选择性注意对 LGN 的增益控制则由 O’Connor et al.(2002)和 Schneider & Kastner(2009)通过 fMRI 证实。Kastner & Pinsk(2004)和 Saalmann & Kastner(2009)因此提出,虽然选择性注意的神经机制在视觉系统的多个阶段运作,但其中最早的一个就是 LGN——来自丘脑网状核(TRN)和枕核(pulvinar)的调制输入控制着 LGN 的神经增益。这一概念最初可追溯到 Crick(1984)的”探照灯假说”(searchlight hypothesis)。
在这种解释框架下,B.T. 的案例揭示的并不必然是某种”意识决定物理”的关系,而更像是一个关于系统控制的例子:高层状态(不同的人格配置)如何通过既有的神经机制,对低层感觉输入进行调制——不仅在皮层层面(如前面讨论的偏向竞争),而且可能在更早的丘脑层面就已经发生。值得注意的是,这里更值得关注的或许不是”为什么某些人格可以看见”,而是系统本身原本就具备在某些条件下关闭整条感觉通路的能力——只是在正常情况下,这种能力不会被如此极端地触发。
需要注意的是,教材本身(Eagleman Chapter 8)对丘脑的讨论主要集中在其对意识状态的维持作用(板内核、网状结构),而非 LGN 层面的注意力调制。LGN 作为 early gatekeeper 的论述来自 DID 论文及其引用的注意力文献。将两者结合来看,丘脑似乎在意识中扮演着双重角色:板内核/网状结构维持意识的状态,而 LGN 及其 TRN 调制则可能参与控制意识的内容——决定哪些信号被允许进入皮层进行进一步处理。
十、总结
将这一章的全部讨论——从变化盲视到偏向竞争,从额顶网络到丘脑门控,从睡眠的解耦到麻醉的失同步,从全局工作空间到整合信息理论——放在一起,可以看到一个逐渐清晰的图景:
我们通常所经验到的”稳定世界”,并不是对外部现实的全面呈现,而是在一套多层级的控制结构之下,被持续筛选和组织出来的结果。这套控制结构包括:皮层内的偏向竞争(决定哪些表征在局部胜出),额顶网络的全局广播(决定哪些信息进入可全局访问的意识工作空间),以及丘脑-中脑系统的状态维持(决定系统是否处于允许意识内容涌现的运行模式)。注意力在其中扮演的是调度角色,而更高层的状态——无论是任务目标、行为语境,还是某种更复杂的心理结构(如 DID 中的人格状态)——则可能在从皮层到丘脑的多个层级上影响这种调度方式。
因此,与其说这一章在回答”意识是什么”,不如说它在不断逼近一个更具操作性的问题:在一个具有多层调制与竞争机制的系统中,信息如何被选择性地整合进那个我们称之为”经验”的全局状态?这种框架性的提问方式,或许比对意识本体的抽象讨论,更直接地触及了我们日常经验的结构——也更接近一种可以被实验和计算方法所逼近的理解。
26 Mar 2026
知是行之始,行是知之成。 —王阳明
这一章终于讲到了一个很根本的问题。大脑为什么需要存在?一个很自然但常常被忽略的答案是:为了行动。
本书的前几章都在阐明知觉不是被动接收世界,而是主动构造世界。本章更进一步指出,大脑的终点从来不只是认识世界,而是改变世界。看见、听到、记住、预测、计划、判断,这些能力当然都很重要,但它们之所以重要,往往因为它们最终会落到身体上,变成某种能够改变外部环境的动作。从这个意义出发考虑,运动不是认知的附属品,而是认知存在的主要理由之一。本章开头的《潜水钟与蝶》主角locked-in syndrome的案例是这件事情残酷的佐证。Jean-Dominique Bauby的意识、记忆和想象力仍然存在,但身体几乎完全失去响应,只剩下一只眼睛还能与世界交换信息。他花了二十万次眨眼完成了最后的回忆录。他的意识就是一只渴望自由的蝴蝶,可身体却如同一个潜水钟一般,所有的行动接口都被切断。所谓自我,从来都不是某个孤立漂浮的思维体,而是一个能够对世界施加影响的闭环系统。
高层智能从大脑到脊髓和身体的下沉
这一章里看到的第一个反直觉的事实是:很多我们以为属于高层智能的东西,其实早就被下沉到了脊髓和身体本身。书里讲到,脊髓不仅仅是电缆,而是一个带有局部计算能力的控制系统。它能完成反射,也能通过central pattern generators生成节律性动作(心跳、呼吸、迈步)。最惊人的例子是,猫在脑干与脊髓切断之后,脊髓仍然可以在跑步机上生成简单的步行动作。再往下看,左右交替步态甚至依赖跨越脊髓中线的抑制性连接。有些小鼠因为发育分子缺失,失去了左右交替激活的能力,于是不会像正常动物那样迈步,而会像兔子一样跳着前进。也就是说,行走这种我们以为要由大脑精确规划的行为,在很大程度上其实是一种低层网络自身就具备的动力学模式。大脑很多时候不是在逐时刻解每一根肌肉的控制方程,而更像是在启动、调节、切换和约束这些底层模式。
这一点和今天的具身智能特别相关。当前主流的机器人大模型(VLA)已经不是直接输出每个关节的力矩——它们通常输出末端执行器的位姿增量,再由底层逆运动学和阻抗控制器转换为关节命令,并且会用 action chunking 一次预测一整段轨迹而非逐帧决策。这已经是一种分层。但这个分层仍然是”大脑很重、脊髓很轻”的架构:高层模型承担了几乎全部的感知、判断和轨迹规划,底层控制器只是一个无状态的数学求解器,没有自己的适应性和记忆。
脑科学给出的答案更激进。低层系统不只是被动执行,它自己就有智能——脊髓能独立维持步态节律、完成反射性抗扰和顺应性调节,即使与大脑完全断开也能产生协调的运动模式。高层系统只负责目标、约束和模式切换。真正稳定的行动,不是由一个全知全能的中心实时计算所有细节,而是由多个层级各自拥有能力、共同完成。
对机器人来说,这意味着当前的分层还可以走得更远:语言或高层 policy 负责意图和任务分解,中层负责动作原语和序列组织,底层则不该只是一个逆运动学求解器,而应该像脊髓一样,拥有自己的状态、自己的节律发生器、自己的反射回路——专门处理平衡、抓握、顺应性、步态节律和瞬时误差恢复,不需要等高层模型下一次推理就能自主响应。第七章其实是在提醒我们,智能不该只长在大脑皮层,也应该长在身体里。
另一个很不寻常的发现,是小脑的角色可能比教材里那句”协调运动”复杂得多。书里提到,小脑体积不到整个神经系统的十分之一,却包含比其他所有结构加起来还多的神经元。它是个古老而密集的器官,皮层像晶体一样重复着高度规则的电路结构。这种几乎过于整齐的结构,让人很难不去猜测,它所做的可能是一类非常通用、非常高频、非常低延迟的计算,而不只是某种狭义的运动修饰。书中提到一个非常漂亮的解释是 forward modeling。你接高速运动的球时,手不能去向球现在所在的位置,而必须去向它将来会出现的位置。更麻烦的是,你对自己手臂位置的感觉本身也存在延迟,所以你不仅要预测外界,还要预测自己。小脑很可能就在做这种双重预测。
这个想法和机器人控制中的核心痛点高度对应。真实世界中的控制从来都不是无延迟的:相机有帧延迟,状态估计有误差,执行器有响应延迟,通信有时延,模型推理也有时延。经典控制其实一直有 forward model:Kalman filter 就是状态预测器,MPC 的核心就是在内部模型上做前向 rollout,这些方法用了几十年。真正的瓶颈在于,传统 forward model 依赖手写的物理方程,一旦环境复杂度超过建模能力就会失效。很多控制系统一进非结构化的真实环境就表现急剧下降,不是因为架构里缺少预测这个环节,而是因为它们的预测模型表达能力不够,无法覆盖真实世界的丰富性。这恰好是当前 world model 路线正在尝试解决的问题——用学习到的高维预测模型取代手写方程。
脑科学的启发在这里还指向一个更具体的工程问题。当前主流 VLA 的推理延迟在百毫秒量级,而底层控制回路需要毫秒级响应。这中间差了两个数量级的时间鸿沟,恰好就是一个 learned forward model 需要填补的位置。它不需要像高层策略那样理解语义,只需要在极低延迟下持续预测短时未来的状态演化,补偿感知和执行链路上的滞后。而”预测自己”这一点尤其值得注意:大多数机器人系统隐含假设对自身状态有完美的观测,但真实情况是关节编码器有噪声、柔性关节有形变、末端负载随任务改变惯性参数。小脑式的自我预测,在工程上对应的是对 proprioception 做主动的、带模型的估计,而不是简单地信任传感器读数。
更让我意外的是,小脑并不只和运动相关。书里明确提到,小脑损伤不仅影响协调、节律、平衡和快速交替运动,也可能影响认知与情感,形成 cerebellar cognitive affective syndrome。换句话说,小脑也许不仅是一个动作校准器,还是一个更一般化的时序协调器和预测器。它在运动里负责时间和误差校正,在认知里也可能承担类似角色。这件事值得今天做 AI 和机器人系统的人注意。我们现在很习惯把 cognition 和 action 彻底拆开,仿佛语言模型负责思考,控制器负责执行。但在脑里,这两者似乎共享某些更底层的算法原理,不一定是同一个物理模块,但可能是同一类计算范式:基于时序的预测、误差前馈和快速校正。也许一个更完整的 embodied architecture 里,不需要把运动预测和认知预测硬塞进同一个网络,但应该让不同层级的子系统都具备这种小脑式的能力——持续做跨模态的短时预测和误差前馈修正,而不是把所有预测负担都压在一个大而慢的中枢模型上。
这一章关于 motor cortex 的部分同样很有意思,因为它打破了另一个常识。我们过去很容易把运动皮层想成一张简单的人体地图,也就是 motor homunculus。书里当然承认这种 somatotopic mapping 的存在,但后面的内容表明,这种图景其实非常不完整。首先,皮层中各个身体部位的面积并不反映身体本身的大小,而反映控制精度。手、嘴、舌头占了巨大的区域,不是因为它们大,而是因为它们需要更高分辨率的控制。其次,对单神经元和群体活动的研究发现,primary motor cortex 似乎并不只是按某块肌肉或某个身体部位来编码,它还通过 population coding 的方式表示动作方向。再进一步的研究甚至发现,它可能更接近编码动作的最终姿态、动作类别,甚至是高维信息压缩到一张二维皮层表面上的投影结果。也就是说,大脑并不一定把动作表示成”某块肌肉收缩多少”,而可能把它表示成某个更高维动作流形中的一点,由整群神经元共同投票决定。
有意思的是,机器人控制领域几乎是独立地走到了类似的结论。当前主流的策略网络已经不在原始 actuator space 里做控制。VLA 输出末端执行器位姿,扩散策略在学习到的潜空间里采样,这些本质上都是某种 latent action space。但这些潜空间大多是纯数据驱动压缩出来的,没有什么内在结构。神经科学的启发也许在于:这个潜空间不一定要是一个无结构的连续流形,它也许应该有更丰富的组织方式,比如按动作类别、目标姿态或可供性来结构化,更接近大脑按”生态学上有意义的行为类别”来组织运动表征的方式。两个领域从完全不同的出发点(演化压力和训练效率)收敛到了相似的设计原则,这本身就很值得注意。
书里还有一个很容易被忽视的点。较长时间的皮层刺激会诱发完整动作而不是简单的肌肉抽动,例如把手送到嘴边,或者把手摆成抓取姿势。这说明大脑里的动作表示也许从一开始就是面向完整行为单元的,而不是先有原子级肌肉信号再由高层拼装。这和机器人领域的 action chunking 形成了有趣的呼应。Action chunking 的工程动机其实很具体:逐帧预测动作会导致多模态分布被平均化,一次预测一整段轨迹能绕开这个问题。但结果是,工程上最好用的方案,恰好和大脑的组织方式长得很像,都是以完整行为片段为单位,而不是以原子动作为单位。
书里还提到了镜像神经元。某些神经元不仅在自己执行动作时放电,在观察他人执行相似动作时也会放电,而且对有明确目标的动作响应更强。需要说明的是,镜像神经元是神经科学里争议很大的话题,围绕它的很多宏大解读(意图理解、共情基础等)被认为是过度推断。但抛开那些争议,有一个相对保守的观察仍然有价值:运动系统似乎更偏好用目标和可供性来组织动作,而不是用纯粹的几何轨迹。这个方向在机器人领域有独立的、扎实的工程基础,从 Gibson 的 ecological psychology 到现在的 affordance prediction 网络,不需要镜像神经元来背书,但两边指向同一个方向,还是值得记住。
基底神经节的部分也非常值得注意。书里提到,基底神经节至少有五条不同的闭环,不只是服务于运动,还有眼动、认知、判断、情绪和价值评估。它更像一个启动、维持、终止不同行为过程的门控系统,而不是单纯的运动核团。看 Huntington 和 Parkinson 这两种疾病的对照尤其有意思。前者更像抑制系统先坏掉,于是出现过量和失控的动作以及情绪和认知层面的失抑制。后者则更像兴奋通路和维持行为的能力先坏掉,于是动作贫乏、启动困难、面具脸、步态拖曳。这个对比其实很启发人。一个系统的智能,不只是会不会动,还包括能不能在对的时候开始、在该持续的时候保持、在该停止的时候及时停下。做机器人的人通常更关心 trajectory optimization,但基底神经节提醒我们,行为的门控和切换机制本身同样关键。
运动层级对于智能体架构的启示
前额叶运动层级这一节则让我想到一个很工程的问题。书里把行动拆成一个很清楚的层级,从需求到目标,从目标到策略,从策略到战术,再到具体动作。饥饿不是动作,买三明治也不是动作,走去食堂、伸手拿钱、张嘴说话才是动作。大脑的高层不是直接操纵肌肉,而是在不断把抽象目标重写成更具体、更局部、更即时的控制问题。当前 LLM agent 领域其实已经在沿着这个方向走了。SayCan 让语言模型提议子任务再由底层技能执行,Code as Policies 把高层意图编译成可执行的技能序列,这些本质上都是在做层级式的目标重写。但目前真正难的地方不在于分层本身,而在于两件更具体的事:一是中间层级失败之后如何稳健地回溯和重新规划,而不是整条链路崩掉从头再来;二是抽象目标如何 grounding 到物理约束上,比如”把桌子收拾干净”到底意味着哪些物体要被移到哪里,这需要语义理解和物理场景的深度绑定。第七章里的层级模型不算是一个新发现,但它提醒我们,这种分层如果做得不够深、不够鲁棒,高层 agent 再聪明也没用。
第七章里还有一个我很喜欢的部分,是关于为什么人不能很好地 multitask。书里的解释非常漂亮。感知系统很多步骤是并行的,所以认脸、看场景、听声音这些事情可以很快一起完成。运动系统却不同,它通常要把任务拆成层级和序列,并且很多步骤必须按顺序进行。你不能一边打蛋一边已经把 omelette 煎好了,顺序本身就是计算的一部分。因此,任何借用了运动层级架构的认知任务(比如长除法)都天然更慢,也更容易碰到瓶颈。这里我第一次强烈地意识到,所谓多任务困难,不一定只是注意力资源不够,也可能是计算图拓扑决定了它必须串行。
这个观察对智能体设计的意义,也许主要不是针对物理机器人(物理执行的串行性是做机器人的人早就理解的),而是针对做软件 agent 的社区。很多人希望 LLM agent 能像服务器一样多线程处理各种任务,但一旦这些任务涉及对真实世界的操作,行动本身往往是强序列化的。感知可以并行,行动很多时候必须排队。真正成熟的 embodied architecture 也许应该明确区分并行感知栈和串行行动栈,前者像视觉和听觉系统可以异步运行,后者像运动控制层级必须管理优先级、排队和互斥。否则系统在仿真里看起来能做很多事,一落到真实世界就会因为执行冲突和状态依赖而变得脆弱。
这一章最后最震撼的部分当然是 free will。Libet 实验以及后续研究都指向一个很不舒服的发现:和动作相关的准备活动,可能在我们意识到自己想要行动之前就已经出现了。更进一步,frontopolar cortex 的活动甚至可以在被试意识到自己将要抬左手还是右手之前很多秒,就预测出结果。需要说明的是,Libet 实验在神经科学界一直有争议,尤其是主观报告的计时方法和 readiness potential 的解读都被质疑过,所以不宜把它当作”自由意志不存在”的铁证。但即使搁置哲学争论,有两个刺激实验的结果仍然非常值得注意。刺激 premotor cortex,会真的产生动作,但患者否认自己动过。刺激 parietal cortex,则会产生想动甚至觉得已经动了的感觉,但身体实际上根本没动。换句话说,行动和行动感是可以被拆开的。
这件事对机器人设计有一个很具体的启发。我们通常觉得 agency 是一个很神秘的属性,好像某个系统内部必须有一个真正的”我”才算有主动性。但这一章提供了一种更可操作的理解:所谓 agency,也许本质上是一个系统内部的一致性问题。当目标、计划、感觉预期和身体状态预测高度一致,行动就会被体验为”我主动做的”。当这种一致性被打破,就会出现 alien hand syndrome 那样的现象:primary motor cortex 明明产生了动作,但因为这个动作没有嵌入更高层的目标和感觉预期,于是它不再被体验为”我的”动作。对机器人来说,这意味着让人觉得一个机器人”有 agency”,关键可能不在于它内部有多复杂的决策机制,而在于它的动作是否和它表现出的目标、预测、注意力朝向之间保持可感知的一致性。一个动作精确但意图不可读的机器人,反而会让人觉得像是在被遥控。
读完这一章之后,我越来越觉得,脑科学对具身智能最大的启发,不是告诉我们如何模仿某个局部模块,而是提醒我们一个更深的事实:智能从来不是纯粹的大脑算法,而是目标、身体、感觉、延迟、环境和控制层级共同形成的闭环。这一章里反复出现的模式是同一个:大脑不信任单一中枢,不信任无延迟假设,不信任完美感知,不信任原子级控制,而是用分层、预测、冗余和局部自治来应对一个根本不完美的物理世界。
当前具身智能领域最大的不对称也许恰好在这里。我们在感知和高层推理上投入了巨量的算力和数据,但在中间层和底层,在预测、在时序协调、在局部自治回路上,投入的智能仍然很薄。模型越来越大,但脊髓和小脑对应的那一层几乎还是空的。也许未来真正的突破不在于让大脑变得更大,而在于让身体变得更聪明。
注: 本文部分内容经过ChatGPT和Claude润色处理。
30 Dec 2025
Intelligence is the ability to adapt to change –Stephen Hawking
尤洋是我在谷歌大脑任职期间有过短暂交集的一位朋友。今天读到他写的微信公众号文章:智能增长的瓶颈,不禁有一些感想不吐不快。原文在此处:智能增长的瓶颈
首先智能的核心在我看来就是霍金说的这句话:对于变化的适应能力。这在我看来无疑是一个更本质,更优雅的定义。并且也能完全包含预测和创作的两个场景:预测是基于历史与现状,对未来状态的推断,本质是应对外部不确定性的适应性策略。创作是生成新的、合理的结构(文本、方案、艺术品),本质是为满足新需求或解决新问题而进行的适应性创造。这两者都是智能系统在适应复杂、动态环境时,所展现出的高级行为。而对变化的适应性才是智能的根本目的和核心功能。这里尤洋对智能的定义我觉得是将表现形式和手段当作了本质。
从这个角度出发去谈智能发展的瓶颈,当然也因此过于简单的归因于算力效率的不足。而忽略了范式层面的一些其他瓶颈。
当然,我完全认可他对Transformer并行计算的论断,我同样也认可使用从能源到智能的转换率作为标准之一衡量智能的进展步伐。然而就在他试图建立智能本质的衡量标准时,他犯了第一个错误:那就是认为比GPT快5倍,或者小10倍的模型只是省钱的技术,只是压缩算法而不是智能突破,只有在同等巨大算力下表现更好,才是真理。
此处对于效率与智能关系的割裂,是违反信息论和现代AI发展史的。效率本身就是智能最高的体现。我相信Marcus Hutter一定会同意我的说法 :-P 如果明天你提出一个架构,用20%的参数量达到了GPT-5的效果,这绝对是智能本质的巨大突破,而不仅仅是商业落地问题。实际上,物理学和计算机科学普遍认为,理解一个事物的标志,就是看你能用多短的代码(最小描述长度,MDL)去描述它。一个使用20%算力就达到同等水平的模型,说明它具有更好的归纳偏置(Inductive Bias),这里”少”就是”精”,而”精”就是”智”。
另外,Scaling Law是具有双向性的。这就是说,如果我发现一个20%算力下就能打平Transformer的架构,科研的下一步一定是会立刻把该模型扩大五倍,把剩下的80%算力也充分利用。那么此时,根据缩放定律,这个新的模型将会远远碾压GPT-5。所以节约算力的技术本质上是在提升智能上限。
最后,浮点计算次数才是算力最基本最本质的计量单位。即使我也是曾经从事HPC的人,我仍然不能同意这句话在AI语境里的意义。
FLOPs不等于思考:众所周知,人脑的功耗大约是20瓦,算力换算成FLOPs远低于现在的超算集群,且人脑根本不使用FP进行操作。但是人脑创造了当今世界的一切奇迹。
不同架构的FLOPS产生的价值不同:Mamba/RWKV等架构下的FLOPS产生的价值与Transformer的FLOPS价值不同。system 2 (推理时计算)模型在推理阶段用于搜索验证的FLOPS比预训练时的FLOPS对某些特定任务价值更大。
姑且让我这样定义智能的未来发展趋势:在单位FLOPs内产生最大的熵减,或者更直白的叫法:智能密度。单纯追求堆砌FLOPs肯定只是在比谁家发电多,而不是谁家算法好。
Smart不等于Big。不过更轻盈更高效往往是通往更强大的必经之路。虽然商业化关注如何在小算力下达到同等效果(降本),但科学界更关注这个高效架构在扩大规模(Scale Up)后,是否能突破现有模型的智能天花板。效率的提升,往往意味着掌握了更本质的规律。
接下去,我认为文中最大且最危险的误判就是关于使用高精度FP64提升智能的谬误。作者认为提升精度,甚至于FP64的回归可能是提升智能的瓶颈突破口,并将数值计算的精确性等同于智能的可靠性。
然而,现代深度学习最基本最普遍的理论就是:高维数据分布在一个低维流形上。而神经网络的本质就是学习这个流形的拓扑结构,而非拟合每一个微小的数值扰动。智能的体现恰恰在于抗噪性,即在低精度、高噪声的输入下仍然能输出正确决策。实际上低精度让算力效率和存储效率双双提升,再使用缩放定律来提升智能瓶颈恰恰才是如今的行业趋势。科学计算的本质在于求解高维的微分方程(比如对于天气预测,求解Navier-Stokes方程,对于材料分析,求解薛定谔方程)。使用FP64的原因在于迭代的科学计算过程对于累计误差非常敏感,在非线性系统中,微小的误差会在几千次迭代后指数级放大,导致最终结果完全错误。而AI,或者智能计算的本质在于统计性的模糊正确。本质是寻找高维空间中的概率分布和决策边界。神经网络权重和激活值本身就是从嘈杂的数据中学来的近似值。事实上,低精度引入的随机噪声反而能防止过拟合,迫使模型更加鲁棒。从去年到今年,量化的研究已经将神经网络权重压缩到ternary级别的1.58比特。这完全与走向FP64相反。
至于天气预报和地震预测对比的例子,地震预测之核心难点不是维度爆炸,而是其地下无传感器的黑盒状态。比如我们无法知道数十公里下的岩石应力和摩擦系数等关键参数。对比天气,这类数据的获取显然容易得多。所以并非计算精度不够,而是输入数据缺失。我想,AlphaFold的成功当然并非建立在FP64精度计算上,而是其神经网络架构和基于海量蛋白质数据的学习过程。AGI不必成为一个超级物理模拟器,而且恰恰不应该成为一个超级物理模拟器。
最后,不可免俗的,作者需要回到Rich Sutton的Bitter Lesson来结束文章,做一些提升。然而,通用方法不等于简单懒惰的Scaling。Sutton这里原文的核心在于不要试图把人类的领域知识硬编码到代码里,减少这样的人为归纳偏置,而构建一个能利用算力自动学习这些知识的系统。事实上,这一论断甚至无关算力:从CNN取代SIFT/HOG,到Transformer取代RNN/LSTM等,都是Sutton论断的胜利。真正苦涩的教训的信徒,应该去寻找下一代比Transformer更通用,更少人为约束的架构。
这篇文章在硬件理解和并行计算的直观解释上非常出色,但是作为一篇展望2026年的文章,我很遗憾的预测作者希望发生的很多事情都不会发生甚至会像他预想的方向相反的方向发生。我认为,这几件事情才是2026年及以后智能计算的趋势:
- 推理时搜索与规划和Agent Swarm
- 数据合成与自我对弈解决数据枯竭问题
- 稀疏和低精度带来更高算力效率和计算范式革命
- 其他新架构和新学习范式的革命
02 Feb 2025
I think multimodal kinds of models are pretty interesting - like can you combine text with imagery or audio or video in interesting ways? —Jeff Dean
这篇文章将聚焦《Brain and Behavior》第六章的核心命题:人类如何从纷繁的物理信号中提取有意义的数据。如果说上一章揭示了视觉是大脑主动构建的产物,那么这一章则进一步解构了所有感官系统的本质——它们本质上是一套经过亿万年演化的生物信号采集与编码系统。
感官的边界与超越
我们常说人类有五种感官,但这一分类显然过于傲慢。书中列举的感官清单让人联想到科幻小说中的赛博格改造:除了视觉、听觉、触觉、味觉、嗅觉外,我们还能感知振动、疼痛、温度、加速度、头部重力方位、关节运动轨迹、信息素,甚至膀胱膨胀或肠道拉伸的内部信号。这些传感器遍布全身,从皮肤到内脏,从耳蜗到肌肉纤维。
每一个感官系统的构造都暗含工程学智慧:专用传感器对应特定物理现象,神经网络则负责解码与整合。例如内耳前庭系统既能通过耳石感知重力加速度(像一台生物陀螺仪),又能通过半规管液体流动侦测头部旋转(像一台惯性导航系统)。这些信号最终在脑干汇聚,让我们无需睁眼也能保持平衡。
听觉:分子级精度的机械工程
关于听觉的数据令人震撼:
外耳与中耳像一套精密滤波器,而真正的魔法发生在将机械振动转化为电信号的耳蜗。基底膜上的毛细胞阵列如同傅里叶变换的物理实现,将声音分解为不同频段。这种「标记线编码」(labeled-line coding)让我联想到现代语音识别模型中的梅尔频谱提取——生物系统竟在千万年前就掌握了信号分频技术。
但听觉系统的脆弱性同样惊人:颞叶皮层的次级听觉区若受损,可能导致能够听到声音却无法理解语义或欣赏旋律。这暗示着听觉处理具有层级化模块,就像深度神经网络中不同层提取不同抽象特征。
体感:皮肤上的宇宙
当我们将皮肤视为一个巨型传感器时,其复杂程度远超想象:
-
触觉感受器能区分0.0002毫米的凹陷(相当于红细胞直径)
-
痛觉系统采用双重警报机制(快速传导的「锐痛」与慢速传导的「钝痛」)
-
本体感觉让盲人也能精准系鞋带,却让渐冻症患者在失去它时如同操控陌生躯体
特别值得注意的是感官拓扑映射现象:体感皮层严格遵循身体部位的空间布局,但不同区域的分辨率差异巨大(指尖占据的皮层面积超过整个背部)。这让我想起Transformer模型中的位置编码——生物系统通过物理邻近性编码空间关系,而人工神经网络通过数学嵌入实现类似效果。
多模态整合:大脑的联邦学习
本章最颠覆认知的观点在于:没有任何感官是独立运作的。视觉会扭曲听觉定位(ventriloquism illusion),触觉能改变味觉感知(用叉子材质影响食物甜度判断),前庭信号甚至能欺骗视觉产生自我运动错觉(VR眩晕的生物学基础)。
这引出了著名的绑定问题(Binding Problem)——大脑如何将离散的感官流整合为统一知觉?书中给出的答案是大规模神经互联网络的时间同步。不同感官信号以不同速度传递(光速>声速>触觉传导),但大脑通过预测模型将它们对齐到同一「此刻」。这解释了为何看远处烟花爆炸时,我们感知到的声光同步其实是大脑精心计算的幻觉。
一个细思极恐的结论是:我们永远活在80毫秒前的世界。从光子撞击视网膜到形成意识知觉,神经信号需要经历多级处理与跨模态校对。这意味着当你说「现在」时,这个「现在」早已成为过去。
本章末尾关于时间感知的讨论让我联想到记忆的本质——如果「现在」是大脑多方协商后的延迟共识,那么「过去」是否只是神经网络的权重更新痕迹?在接下来的章节中,关于记忆与注意力的内容或许会给出答案。此刻我的大脑正通过视觉皮层接收屏幕光子,通过听觉皮层处理空调嗡鸣,通过本体感觉确认手指在键盘上的位置——所有这些离散信号将在80毫秒后融合成名为「我正在写作」的知觉。而这一切,都建立在大脑这个预测引擎对世界的持续建模之上。
注: 本文部分内容经过DeepSeek R1润色处理。