近年来,大型语言模型(LLM)展现出惊人的能力,引发了人们对它们与人脑相似性的思考。一些研究人员试图通过测量模型预测神经信号的能力,即“脑评分”,来量化这种相似性。LLM 的内部表征在脑评分方面取得了最先进的成果,这让人们猜测它们可能与人类语言处理共享计算原理。然而,这种推断只有在 LLM 预测的神经活动子集反映了语言处理的核心要素时才有效。
友情链接:ACEJoy
本文将对一项关于 LLM 与人脑映射的具有影响力的研究中使用的三个神经数据集进行分析,重点关注参与者阅读短篇文本的 fMRI 数据集。研究发现,当使用与先前研究中相同的数据集进行随机训练-测试分割时,一个编码时间自相关的简单特征不仅优于 LLM,而且解释了 LLM 解释的大部分神经方差。因此,研究人员建议谨慎使用随机训练-测试分割,并使用连续测试分割进行后续分析。
LLM 的“脑评分”:真相还是幻觉?
研究人员发现,未经训练的 LLM 在脑评分方面表现出高于预期的水平,这引发了人们对 Transformer 架构是否将计算偏向更像人脑的猜测。然而,研究表明,未经训练的 LLM 预测的神经方差,实际上主要由两个简单的特征解释:句子长度和句子位置。这削弱了 Transformer 架构更像人脑的证据。
进一步研究发现,经训练的 LLM 在该数据集上的脑评分主要由句子长度、句子位置和代词消解后的静态词嵌入解释;一小部分额外的方差由词义嵌入和句子结构的上下文表征解释。
揭秘 LLM 的“脑评分”:简单特征的强大力量
为了深入了解 LLM 与人脑之间的映射关系,研究人员采用了逐步增加特征复杂度的策略,从简单的句子长度和句子位置特征开始,逐步添加词义嵌入、句法嵌入等更复杂的特征。
结果表明,一个包含核心词义消解的简单模型,在解释 LLM 预测的神经方差方面表现出色,甚至超过了 LLM 本身。更复杂的上下文处理,例如词义消歧和上下文句法表征,在解释神经方差方面只起到了一定的补充作用。
结论:谨慎解读 LLM 的“脑评分”
研究表明,过度依赖脑评分可能会导致对 LLM 与人脑之间相似性的过度解读。研究人员强调,在使用脑评分进行分析时,需要对神经编码性能进行系统性分解,并与简单且理论上不重要的特征进行比较。只有在进行这种分解之后,我们才能更有把握地认为 LLM 的神经预测能力反映了人类语言处理的核心方面。
参考文献