🌐 多话 ≠ 真相:大语言模型的冗长补偿行为揭秘

摘要

在我们日常生活中,当人们对某个问题没有把握时,常常会倾向于说得过多,以期在长篇大论中某个部分可能正确。类似的行为在大语言模型(LLMs)中也屡见不鲜,这种现象我们称之为“冗长补偿”(Verbosity Compensation, VC)。这种行为不仅会让用户感到困惑,降低使用效率,还会增加模型服务的延迟和成本。本文首次定义、分析了冗长补偿现象,探索其成因,并提出了一种简单的缓解方法。通过对五个知识和推理型问答数据集上的14个新开发的LLMs进行实验,我们得出了三个主要结论:


友情链接:ACEJoy


 

  1. 我们发现冗长补偿现象在所有模型和数据集上普遍存在,其中GPT-4的VC频率高达50.40%。
  2. 冗长和简洁响应之间的性能差距显著,例如在Qasper数据集上差异达到27.61%。这种差异不会随着LLM能力的提升而自然减小。
  3. 冗长响应在所有五个数据集上表现出更高的不确定性,暗示冗长与模型不确定性之间存在强关联。

我们提出了一种简单而有效的级联算法,通过用其他模型生成的响应替换冗长响应来缓解这种现象。结果表明,该方法有效地将Mistral模型在Qasper数据集上的VC从63.81%减少到16.16%。

1. 引言

“把所有东西都扔到墙上,看有什么能粘住。”
——美国谚语

所谓“冗长补偿”,指的是使用过于冗长的语言试图掩盖缺乏实质内容或清晰沟通的行为,借此试图显得更有知识或有说服力,即使这些文字并未为信息增添显著意义。这种现象不仅在人类语言交流中存在,在大语言模型中也有类似表现。

2. 冗长补偿的定义

我们将冗长补偿定义为在要求简洁书写时,生成的响应可以在不丢失信息的情况下被压缩的行为。为了系统地分析VC行为,我们整合了四个现有的长上下文问答数据集以及一个基于推理的语言理解数据集。通过对14个新提出的LLMs在五个数据集上的基准测试,我们对结果进行了详尽分析。

2.1 冗长补偿行为的分类

通过人工检查模型生成的结果,我们总结并分类了冗长补偿的模式。尽管不同的模型和数据集在冗长补偿行为上分布不同,我们可以将其归类为五种类型:重复问题、枚举、模糊、冗长的细节和冗长的格式。

2.2 冗长补偿与模型不确定性的联系

通过对模型响应的不确定性进行评估,我们发现冗长响应在所有五个数据集上表现出更高的不确定性,显示出冗长与模型不确定性之间的强关联。我们使用困惑度和拉普拉斯分数来度量模型响应的不确定性。

3. 缓解冗长补偿的方法

为了解决冗长补偿的问题,我们提出了一种简单但有效的级联算法,该算法通过用其他模型生成的响应替换冗长响应来减轻冗长补偿的影响。实验表明,我们的级联算法在三个模型组合上表现出色:Gemma到Gemini、Mistral到GPT-4、Llama到Claude。结果显示,我们的方法有效地将Mistral模型在Qasper数据集上的VC从63.81%减少到16.16%。

4. 实验设置

4.1 数据集构建

我们选择了五个数据集进行实验,其中包括Qasper、LongBench、NarrativeQA、NQ30和MMLU。每个数据集都经过精心挑选,以确保样本的质量和挑战性。

4.2 模型选择

在实验中,我们使用了包括GPT、Claude、Gemini、Llama、Gemma、Mistral在内的六个系列共14个LLMs。每个模型都进行了特定的设置以确保实验的公平性。

5. 结果与分析

5.1 冗长补偿的频率和类型

所有模型在所有数据集上都表现出冗长补偿行为。通过对人类注释的分析,我们发现冗长补偿行为主要表现为五种类型,其中不同模型和数据集的冗长类型分布不同。

5.2 冗长补偿与性能的关系

冗长和简洁响应之间的性能差距显著。对于大多数数据集和模型,冗长响应的性能较低,表明需要紧急解决冗长与真实性的纠缠问题。

5.3 不确定性与冗长补偿

通过不确定性评估,我们发现所有模型在生成较长响应时表现出更高的不确定性。这进一步验证了冗长补偿行为与不确定性之间的联系。

5.4 使用级联模型选择来缓解冗长补偿

通过级联算法,与单一模型相比,冗长补偿的频率大幅降低。这表明级联算法在减轻冗长补偿方面的有效性。

结论

本文系统地分析了LLM响应的冗长补偿行为。我们首先将冗长分类为五种类型,并发现所有模型在冗长响应上表现出高频率。我们进一步探索了背后的原因,发现不确定性与此现象高度相关。最后,我们提出的级联模型选择算法在缓解冗长补偿方面非常有效。

参考文献

  1. Juola, P. (2008). Linguistic analysis and verbosity.
  2. Strunk Jr, W., & White, E. B. (2007). The Elements of Style.
  3. Demir, S. (2019). Educational implications of verbosity.
  4. Brookshire, R. H., & McNeil, M. R. (2014). Psychology of verbosity.
  5. Oppenheimer, D. M. (2006). The Secret Life of Flattery.

发表评论