Reading notes of Brain and Behavior (VI)
02 Feb 2025I think multimodal kinds of models are pretty interesting - like can you combine text with imagery or audio or video in interesting ways? —Jeff Dean
这篇文章将聚焦《Brain and Behavior》第六章的核心命题:人类如何从纷繁的物理信号中提取有意义的数据。如果说上一章揭示了视觉是大脑主动构建的产物,那么这一章则进一步解构了所有感官系统的本质——它们本质上是一套经过亿万年演化的生物信号采集与编码系统。
感官的边界与超越
我们常说人类有五种感官,但这一分类显然过于傲慢。书中列举的感官清单让人联想到科幻小说中的赛博格改造:除了视觉、听觉、触觉、味觉、嗅觉外,我们还能感知振动、疼痛、温度、加速度、头部重力方位、关节运动轨迹、信息素,甚至膀胱膨胀或肠道拉伸的内部信号。这些传感器遍布全身,从皮肤到内脏,从耳蜗到肌肉纤维。
每一个感官系统的构造都暗含工程学智慧:专用传感器对应特定物理现象,神经网络则负责解码与整合。例如内耳前庭系统既能通过耳石感知重力加速度(像一台生物陀螺仪),又能通过半规管液体流动侦测头部旋转(像一台惯性导航系统)。这些信号最终在脑干汇聚,让我们无需睁眼也能保持平衡。
听觉:分子级精度的机械工程
关于听觉的数据令人震撼:
-
人耳能检测到氢原子直径级别(10^-9厘米)的空气振动,却不会被空气分子的随机布朗运动干扰
-
动态范围跨越百万倍(从落叶触地到火箭发射)
-
频率分辨率达到0.8%-1%(Jacob Collier的惊人Microtonal Music能力)
外耳与中耳像一套精密滤波器,而真正的魔法发生在将机械振动转化为电信号的耳蜗。基底膜上的毛细胞阵列如同傅里叶变换的物理实现,将声音分解为不同频段。这种「标记线编码」(labeled-line coding)让我联想到现代语音识别模型中的梅尔频谱提取——生物系统竟在千万年前就掌握了信号分频技术。
但听觉系统的脆弱性同样惊人:颞叶皮层的次级听觉区若受损,可能导致能够听到声音却无法理解语义或欣赏旋律。这暗示着听觉处理具有层级化模块,就像深度神经网络中不同层提取不同抽象特征。
体感:皮肤上的宇宙
当我们将皮肤视为一个巨型传感器时,其复杂程度远超想象:
-
触觉感受器能区分0.0002毫米的凹陷(相当于红细胞直径)
-
痛觉系统采用双重警报机制(快速传导的「锐痛」与慢速传导的「钝痛」)
-
本体感觉让盲人也能精准系鞋带,却让渐冻症患者在失去它时如同操控陌生躯体
特别值得注意的是感官拓扑映射现象:体感皮层严格遵循身体部位的空间布局,但不同区域的分辨率差异巨大(指尖占据的皮层面积超过整个背部)。这让我想起Transformer模型中的位置编码——生物系统通过物理邻近性编码空间关系,而人工神经网络通过数学嵌入实现类似效果。
多模态整合:大脑的联邦学习
本章最颠覆认知的观点在于:没有任何感官是独立运作的。视觉会扭曲听觉定位(ventriloquism illusion),触觉能改变味觉感知(用叉子材质影响食物甜度判断),前庭信号甚至能欺骗视觉产生自我运动错觉(VR眩晕的生物学基础)。
这引出了著名的绑定问题(Binding Problem)——大脑如何将离散的感官流整合为统一知觉?书中给出的答案是大规模神经互联网络的时间同步。不同感官信号以不同速度传递(光速>声速>触觉传导),但大脑通过预测模型将它们对齐到同一「此刻」。这解释了为何看远处烟花爆炸时,我们感知到的声光同步其实是大脑精心计算的幻觉。
一个细思极恐的结论是:我们永远活在80毫秒前的世界。从光子撞击视网膜到形成意识知觉,神经信号需要经历多级处理与跨模态校对。这意味着当你说「现在」时,这个「现在」早已成为过去。
本章末尾关于时间感知的讨论让我联想到记忆的本质——如果「现在」是大脑多方协商后的延迟共识,那么「过去」是否只是神经网络的权重更新痕迹?在接下来的章节中,关于记忆与注意力的内容或许会给出答案。此刻我的大脑正通过视觉皮层接收屏幕光子,通过听觉皮层处理空调嗡鸣,通过本体感觉确认手指在键盘上的位置——所有这些离散信号将在80毫秒后融合成名为「我正在写作」的知觉。而这一切,都建立在大脑这个预测引擎对世界的持续建模之上。
注: 本文部分内容经过DeepSeek R1润色处理。