认识超叠知识:揭示大语言模型终身知识编辑的失败

引言

在现代人工智能领域,大语言模型(LLMs)因其卓越的语言理解和生成能力而广受欢迎。然而,这些模型在面对过时或不准确的知识时,往往无能为力(Radford et al. 2019)。虽然重新训练这些模型以更新知识的成本极高,知识编辑(De Cao et al. 2021)因此应运而生,旨在通过直接更新模型的内部参数来实现特定知识的修改。

友情链接:ACEJoy

然而,当前的知识编辑方法在终身编辑的可扩展性方面存在局限性(Huang et al. 2023)。终身编辑要求在模型生命周期内进行连续的知识编辑和性能监控,但实际应用中,不同的编辑方法(如ROME和MEMIT)在经历数十次或数百次编辑后,模型性能会出现严重下降(Hu et al. 2024)。本研究将探讨知识编辑在终身编辑中失败的根本原因。

知识编辑与超叠现象

知识编辑的目标是修改语言模型的知识,使其在面临相关输入时的输出反映出更新后的状态(De Cao et al. 2021)。然而,知识超叠的现象在这些模型中普遍存在,导致了编辑过程中的干扰(Elhage et al. 2022b)。超叠指的是神经网络试图表示超出其可用维度的特征时所采用的一种策略,在这种情况下,不同特征的表示会近乎正交(Figure 2)。

本研究的核心发现是,知识超叠是导致终身知识编辑失败的根本原因。通过严格的数学推导,我们发现在从单次编辑扩展到终身编辑的过程中,最终解决方案中引入了一个干扰项,这表明编辑知识可能会影响到不相关的知识(Figure 1c)。我们进一步分析了该干扰项,发现它与知识表示之间的超叠现象密切相关。

数学推导与知识超叠

我们从线性关联记忆的闭式解出发,扩展到终身编辑场景(Meng et al. 2022a)。通过数学推导,我们得出以下公式:

$$
W_n =
\begin{cases}
W_0, & n=0 \
W_{n-1} + \Lambda_n (C^{-1} k_{e_n})^{T}, & n \geq 1
\end{cases}
$$

这里,$W_n$ 表示经过第 $n$ 次编辑后的参数矩阵,而 $C=K K^{T}$ 是协方差矩阵。通过对干扰项的分析,我们发现,若知识表示完全正交,干扰项将消失,允许无损的知识编辑。

在我们的实验中,我们针对多个语言模型(如GPT-2、Llama-2、Pythia等)进行了知识超叠的广泛研究,发现这种超叠现象在所有层中普遍存在,其特征表现为高峰度、零均值和重尾分布(Figure LABEL:fig:kde_superposition)。这意味着,尽管模型试图以正交方式存储不同的知识,但由于容量限制,最终采用了超叠策略。

实验与结果分析

在语言模型的不同层中,我们计算了知识表示之间的角度分布,结果显示,在去除对角线元素后,P矩阵的非零元素表明知识超叠的存在。随着模型规模的增加,P矩阵逐渐“清晰”,表明更大的模型能够以较弱的超叠存储知识,减少了由于超叠引起的干扰。

具体而言,我们观察到在GPT-2和GPT-J的第一层中,某些知识对(如“Vladimir Mayakovsky”和“Vladimir Bukovsky”)之间的相似性极高,导致在编辑时,模型对这些知识的操作几乎是相同的。这一现象表明,模型在处理这些知识对时存在密切的干扰关系,进一步验证了知识超叠的存在。

结论

通过理论与实证相结合的方式,本文揭示了知识超叠在大语言模型中的普遍性,并解释了其对终身知识编辑的影响。我们的研究结果表明,知识超叠是导致终身编辑失败的根本原因。因此,未来的研究方向应集中在优化模型架构和知识编辑算法,以减少超叠现象的影响,从而实现真正的无损知识编辑。

参考文献

  1. Radford, A., Wu, J., Child, R., et al. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8): 9.
  2. De Cao, N., et al. (2021). Editing Factual Knowledge in Language Models. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 6491–6506.
  3. Elhage, N., Hume, T., Olsson, C., et al. (2022b). Toy models of superposition. arXiv preprint arXiv:2209.10652.
  4. Meng, K., Bau, D., Andonian, A., et al. (2022a). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems, 35: 17359–17372.
  5. Hu, C., Cao, P., Chen, Y., et al. (2024). Wilke: Wise-layer knowledge editor for lifelong knowledge editing. arXiv preprint arXiv:2402.10987.

发表评论