Reading notes of Brain and Behavior (VI)

I think multimodal kinds of models are pretty interesting - like can you combine text with imagery or audio or video in interesting ways? —Jeff Dean

这篇文章将聚焦《Brain and Behavior》第六章的核心命题:人类如何从纷繁的物理信号中提取有意义的数据。如果说上一章揭示了视觉是大脑主动构建的产物,那么这一章则进一步解构了所有感官系统的本质——它们本质上是一套经过亿万年演化的生物信号采集与编码系统。

感官的边界与超越

我们常说人类有五种感官,但这一分类显然过于傲慢。书中列举的感官清单让人联想到科幻小说中的赛博格改造:除了视觉、听觉、触觉、味觉、嗅觉外,我们还能感知振动、疼痛、温度、加速度、头部重力方位、关节运动轨迹、信息素,甚至膀胱膨胀或肠道拉伸的内部信号。这些传感器遍布全身,从皮肤到内脏,从耳蜗到肌肉纤维。

每一个感官系统的构造都暗含工程学智慧:专用传感器对应特定物理现象,神经网络则负责解码与整合。例如内耳前庭系统既能通过耳石感知重力加速度(像一台生物陀螺仪),又能通过半规管液体流动侦测头部旋转(像一台惯性导航系统)。这些信号最终在脑干汇聚,让我们无需睁眼也能保持平衡。

听觉:分子级精度的机械工程

关于听觉的数据令人震撼:

外耳与中耳像一套精密滤波器,而真正的魔法发生在将机械振动转化为电信号的耳蜗。基底膜上的毛细胞阵列如同傅里叶变换的物理实现,将声音分解为不同频段。这种「标记线编码」(labeled-line coding)让我联想到现代语音识别模型中的梅尔频谱提取——生物系统竟在千万年前就掌握了信号分频技术。

但听觉系统的脆弱性同样惊人:颞叶皮层的次级听觉区若受损,可能导致能够听到声音却无法理解语义或欣赏旋律。这暗示着听觉处理具有层级化模块,就像深度神经网络中不同层提取不同抽象特征。

体感:皮肤上的宇宙

当我们将皮肤视为一个巨型传感器时,其复杂程度远超想象:

特别值得注意的是感官拓扑映射现象:体感皮层严格遵循身体部位的空间布局,但不同区域的分辨率差异巨大(指尖占据的皮层面积超过整个背部)。这让我想起Transformer模型中的位置编码——生物系统通过物理邻近性编码空间关系,而人工神经网络通过数学嵌入实现类似效果。

多模态整合:大脑的联邦学习

本章最颠覆认知的观点在于:没有任何感官是独立运作的。视觉会扭曲听觉定位(ventriloquism illusion),触觉能改变味觉感知(用叉子材质影响食物甜度判断),前庭信号甚至能欺骗视觉产生自我运动错觉(VR眩晕的生物学基础)。

这引出了著名的绑定问题(Binding Problem)——大脑如何将离散的感官流整合为统一知觉?书中给出的答案是大规模神经互联网络的时间同步。不同感官信号以不同速度传递(光速>声速>触觉传导),但大脑通过预测模型将它们对齐到同一「此刻」。这解释了为何看远处烟花爆炸时,我们感知到的声光同步其实是大脑精心计算的幻觉。

一个细思极恐的结论是:我们永远活在80毫秒前的世界。从光子撞击视网膜到形成意识知觉,神经信号需要经历多级处理与跨模态校对。这意味着当你说「现在」时,这个「现在」早已成为过去。

本章末尾关于时间感知的讨论让我联想到记忆的本质——如果「现在」是大脑多方协商后的延迟共识,那么「过去」是否只是神经网络的权重更新痕迹?在接下来的章节中,关于记忆与注意力的内容或许会给出答案。此刻我的大脑正通过视觉皮层接收屏幕光子,通过听觉皮层处理空调嗡鸣,通过本体感觉确认手指在键盘上的位置——所有这些离散信号将在80毫秒后融合成名为「我正在写作」的知觉。而这一切,都建立在大脑这个预测引擎对世界的持续建模之上。

注: 本文部分内容经过DeepSeek R1润色处理。