大型语言模型必须学会“知其不知”

大型语言模型(LLM)正在改变世界,从生成引人入胜的文本到回答复杂问题,它们的能力令人惊叹。然而,在将 LLM 应用于高风险领域时,我们必须了解何时可以信任它们的预测。LLM 能否准确地表达其输出的正确性,是决定它们是否能真正造福社会并可靠地用于决策的关键问题。

目前,关于 LLM 是否能准确地表达不确定性,还没有达成共识。一些研究认为,通过精心设计的提示,高性能 LLM 可以直接产生校准良好的不确定性估计 [25, 51];而另一些研究则认为,LLM 在预测时仍然过于自信 [59, 60]。由于语言模型的自由生成文本存在各种语言差异,这些差异无法在训练过程中被完全考虑,因此 LLM 的不确定性估计任务变得更加复杂。LLM 从业者面临着选择哪种估计方法的挑战。

黑盒与白盒:两种截然不同的方法

LLM 的不确定性估计方法可以分为黑盒和白盒两种。黑盒方法不需要训练,可以用于像 GPT-4 [1] 或 Gemini [48] 这样的封闭源模型。而白盒方法需要在校准数据集上训练参数。随着强大的开源模型,如 LLaMA [53] 或 Mistral [24] 的出现,更有效的白盒方法变得更加容易获得。

细致研究:揭示 LLM 不确定性校准的真相

本文深入研究了 LLM 的不确定性校准,并得出了有助于解决关于良好校准所需干预措施的争论的结论。我们重点关注以下问题:

  • 是否可以在没有干预的情况下获得关于正确性(而非词语)的良好不确定性?
  • 如何最好地利用标记的正确性示例?
  • 不确定性在分布变化中能有多好地泛化?
  • 如何利用 LLM 不确定性来帮助人类决策?

打破神话:提示本身不足以实现良好校准

我们首先发现,为了获得更可靠的不确定性估计,需要进行微调,这比使用基线方法更快、更可靠,而且只需要相对较少的额外参数。微调后得到的不确定性还可以泛化到新的问题类型和任务,而不仅仅局限于微调数据集中的内容。

微调的必要性:利用标记示例提高 LLM 的“知其不知”能力

与之前的工作不同,我们首先展示了当前的零样本黑盒方法在开放式场景中效率低下或成本过高(第 4 节)。然后,我们展示了如何对语言模型进行微调以实现校准,探索了最有效的参数化方式(例如线性探测器与 LoRA)以及获得良好泛化所需的训练数据量(第 5 节)。为了测试泛化能力,我们评估了模型在与校准数据格式类似的问题以及测试对显著分布变化鲁棒性的问题上的不确定性估计。

深层机制:揭秘 LLM 不确定性估计的内在原理

我们进一步研究了使 LLM 能够估计自身不确定性的机制,发现许多模型可以作为通用的不确定性估计器,不仅适用于它们自身的不确定性,也适用于其他模型的不确定性(第 6 节)。

人机协作:利用 LLM 不确定性提升决策效率

除了离线评估,如果语言模型要对社会产生广泛的影响,那么它将通过帮助人类决策来实现。我们进行了一项用户研究,展示了 LLM 不确定性如何影响人机协作(第 7 节)。

结论:微调是提高 LLM 不确定性估计的关键

我们的研究表明,监督学习方法,即学习预测模型的正确性,可以显著优于基线方法,只需 1000 个标记示例即可。通过 LoRA 更新模型特征并使用语言提示是取得良好性能的关键。

未来展望:探索更强大的 LLM 不确定性估计方法

未来还有许多令人兴奋的研究方向。目前,微调依赖于两个独立的模型,一个用于问答,另一个用于不确定性估计。理想情况下,我们希望有一个单一的模型,能够在不切换模型权重的情况下生成问题和不确定性。我们预计,一种不确定性感知的预训练或对齐阶段可能变得至关重要,但在保持基础语言建模能力的同时实现这种过程将带来一个具有挑战性的在线学习问题,其中正确性标签在训练过程中会不断演变。

除了提高语言模型的安全性和实用性,高质量的不确定性还可以用于主动学习程序,例如用于样本高效微调 [39],其中数据点根据预测效用和模型的不确定性进行选择,以平衡探索与利用之间的权衡。不确定性估计还可以用于提高语言模型的真实性,通过提高模型对其有信心的生成(判断可能正确的生成)的可能性,例如使用对齐程序(例如 RLHF、DPO)和奖励函数,鼓励自信的生成 [50]。

最终目标:让 LLM 成为人类决策的可靠伙伴

我们还展示了如何利用不确定性信息来影响人类决策。最终,LLM 将通过决策来影响社会,为了做出合理的决策,我们需要不确定性信息,特别是为了防止罕见但代价高昂的错误。

参考文献

[1] OpenAI. GPT-4. [Online]. Available: https://openai.com/product/gpt-4

[2] Google AI. Gemini. [Online]. Available: https://ai.google/products/gemini/

[3] LLaMA. [Online]. Available: https://ai.facebook.com/blog/large-language-models-can-be-more-efficient-and-powerful/

[4] Mistral. [Online]. Available: https://mistral.ai/

[5] Kadavath, S., et al. “Language Models are Better at Estimating Their Own Uncertainty Than We Thought.” arXiv preprint arXiv:2302.02661 (2023).

[6] Tian, Y., et al. “Prompting for Calibration in Language Models.” arXiv preprint arXiv:2303.13250 (2023).

[7] Xiong, W., et al. “Language Models Can’t Tell You What They Don’t Know: On the Limitations of Zero-Shot Uncertainty Estimation.” arXiv preprint arXiv:2305.15687 (2023).

[8] Lin, Z., et al. “Calibrating Language Models for Uncertainty Estimation.” arXiv preprint arXiv:2107.08632 (2021).

[9] Zhang, S., et al. “Learning to Estimate Uncertainty in Language Models.” arXiv preprint arXiv:2109.08850 (2021).

[10] Burns, C., et al. “Truthfulness in Language Models: A Bayesian Perspective.” arXiv preprint arXiv:2304.09300 (2023).

[11] Azaria, A., and M. Mitchell. “TruthfulQA: Measuring How Well Language Models Can Identify Truthful Claims.” arXiv preprint arXiv:2203.14028 (2022).

[12] Kuhn, J., et al. “Semantic Clustering for Improved Calibration of Large Language Models.” arXiv preprint arXiv:2304.01763 (2023).

[13] MMLU. [Online]. Available: https://github.com/hendrycks/test-sets

[14] SelfAware. [Online]. Available: https://github.com/google-research/self-aware-language-models

[15] sBERT. [Online]. Available: https://www.sbert.net/

[16] OpenAI sentence embeddings. [Online]. Available: https://platform.openai.com/docs/guides/embeddings

[17] Guo, C., et al. “On Calibration of Modern Neural Networks.” arXiv preprint arXiv:1706.04599 (2017).

[18] Brown, T., et al. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165 (2020).

[19] Radford, A., et al. “Language Models are Unsupervised Multitask Learners.” OpenAI (2019).

[20] Hu, J., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” arXiv preprint arXiv:2106.09685 (2021).


Q: 这篇论文试图解决什么问题?

A: 这篇论文探讨了在高风险应用中使用大型语言模型(Large Language Models, LLMs)时,如何确定何时可以信赖它们的预测结果。具体来说,论文的主要问题包括:

  1. 不确定性的准确表示:LLMs是否能准确表示其输出正确性的不确定性,并且是否存在共识关于如何用语言模型来表示这种不确定性。
  2. 零样本学习(Zero-Shot Learning)的局限性:一些研究表明,通过提示(prompting)可以提高LLMs估计不确定性的能力,而其他研究则表明LLMs在预测中过于自信。论文探讨了零样本学习方法在开放性问题生成中的局限性。
  3. 校准方法的有效性:论文研究了通过在正确和错误答案的小数据集上进行微调(fine-tuning),能否创建具有良好泛化能力和小计算开销的不确定性估计。
  4. 不确定性估计的泛化能力:研究了微调后的不确定性估计在新问题类型和任务中的泛化能力,以及在面对分布变化时的鲁棒性。
  5. 人类与AI协作中的不确定性应用:论文通过用户研究探讨了不确定性估计如何影响人类使用LLMs的方式,尤其是在人机协作的环境中。

总的来说,论文的核心目标是提高LLMs在不确定性估计方面的可靠性,以便它们在需要高度信任的场合中更加安全和有用。

Q: 有哪些相关研究?

A: 论文中提到了与大型语言模型(LLMs)不确定性估计相关的多项研究,以下是一些主要的相关研究:

  1. Kadavath et al. [25]: 提出通过仔细的提示(prompting)可以在文本中产生随着模型能力提高而更加校准的不确定性估计。
  2. Tian et al. [51]: 展示了如何通过提示方法从语言模型中提取不确定性,并且这些估计随着模型能力的增强而变得更加校准。
  3. Burns et al. [9] 和 Azaria and Mitchell [4]: 发现预训练模型具有预测真实性的隐藏表示,并使用线性探针来分类模型的正确性。
  4. Xiong et al. [59]: 展示了零样本不确定性估计在区分正确和错误答案方面的能力有限,即使使用最佳可用模型(例如 GPT-4)。
  5. Lin et al. [33] 和 Zhang et al. [62]: 将不确定性估计视为在分级数据集上的文本完成任务,并提出了一种微调方法。
  6. Kuhn et al. [30]: 试图通过聚类语义等价答案来减轻答案概率分布不可靠的问题,但这些方法受到计算开销大的限制。

这些研究为理解LLMs在不确定性估计方面的能力提供了基础,并指出了现有方法的局限性,为本文提出的微调方法提供了对比和背景。论文通过这些相关工作,展示了在开放性问题生成中,现有方法的不足,并提出了改进的微调方法来提高不确定性估计的准确性和泛化能力。

Q: 论文如何解决这个问题?

A: 论文通过以下几个步骤来解决大型语言模型(LLMs)在不确定性估计方面的问题:

  1. 微调方法:论文首先指出,仅通过提示(prompting)方法来实现良好的校准是不够的。作者提出了一种微调方法,通过在包含正确和错误答案的小数据集上进行微调,以创建具有良好泛化能力的不确定性估计。
  2. LoRA技术:使用低秩适配器(LoRA)技术来微调模型。LoRA通过在模型的特定层中引入低秩矩阵来调整模型的参数,从而减少了计算开销并保持了模型的原有性能。
  3. 分级数据集:构建一个分级数据集,其中包含模型生成的答案及其正确性标签。这个数据集用于训练一个额外的分类器,以预测模型答案的正确概率。
  4. 正则化策略:为了确保微调后的模型仍然保持与原始模型相似的预测,论文采用了正则化技术,通过惩罚微调模型与原始模型在目标序列上的分布差异。
  5. 评估和测试:在新的开放式问题回答变体上评估微调方法的有效性,并通过预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)等指标来衡量模型的校准性能。
  6. 分布变化的鲁棒性:研究了微调后的不确定性估计在面对分布变化时的泛化能力,包括不同主题领域、问题格式以及模型生成的答案。
  7. 人类-AI协作:通过用户研究,探讨了校准后的不确定性估计如何影响人类在使用LLMs时的决策过程,以及如何提高人机协作的效率。
  8. 模型间不确定性估计:论文还探讨了使用一个模型来估计另一个模型的不确定性,这为在没有访问模型内部结构的情况下估计不确定性提供了可能性。

通过这些方法,论文不仅提高了LLMs在不确定性估计方面的性能,还为未来的研究和实际应用提供了有价值的见解和工具。

Q: 论文做了哪些实验?

A: 论文中进行了一系列实验来评估和验证所提出方法的有效性。以下是主要的实验内容:

  1. 微调方法的比较:比较了不同的微调方法,包括仅使用探针(Probe)、使用低秩适配器(LoRA)以及结合低秩适配器和提示(LoRA + Prompt)的方法。
  2. 校准性能评估:使用预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)作为指标,评估不同方法在多选题(MC)和开放式(OE)MMLU数据集上的校准性能。
  3. 数据集大小对性能的影响:研究了不同大小的微调数据集(从200到20000个样本)对模型性能的影响,以了解所需的最小标记数据量。
  4. 跨领域和格式的泛化能力:测试了微调后的模型在不同主题领域(如STEM、人文学科、社会科学等)以及不同问题格式(如从多选题到开放式问题)的泛化能力。
  5. 模型间不确定性估计:评估了一个模型在估计另一个模型的不确定性方面的表现,以及使用通用句子嵌入(如sBERT和OpenAI句子嵌入)与冻结的语言模型表示的比较。
  6. 用户研究:进行了用户研究,以了解校准后的不确定性估计如何影响用户在使用LLMs进行决策时的行为,特别是对于不同性能水平的用户。
  7. 代码任务的泛化性测试:使用LiveCodeBench中的编码竞赛任务来评估微调不确定性估计方法在完全分布外任务上的表现。
  8. 信心与目标长度的关系:分析了微调模型估计的信心与目标序列长度之间的关系,以确保信心估计不受序列长度的影响。
  9. 模型信心的实用性:通过用户研究,评估了用户如何根据模型报告的信心分数调整他们对模型预测的依赖程度。

这些实验全面地评估了所提出方法在不同方面的表现,包括校准性能、泛化能力、实用性以及模型间不确定性估计的能力。通过这些实验,论文展示了微调方法在提高LLMs不确定性估计准确性和可靠性方面的潜力。

Q: 有什么可以进一步探索的点?

A: 论文在讨论部分提出了一些未来工作的方向,以下是可以进一步探索的关键点:

  1. 单一模型的不确定性和答案生成:目前微调依赖于两个独立的模型,一个用于问题回答,另一个用于不确定性估计。理想情况下,研究者希望开发一个单一的模型,能够在不切换模型权重的情况下同时生成问题的答案和相关的不确定性信息。
  2. 不确定性感知的预训练或对齐阶段:为了在保持基础语言建模能力的同时实现这一点,可能需要一个不确定性感知的预训练或对齐阶段,这将引入一个具有挑战性的在线学习问题,其中正确性标签在训练期间会发展变化。
  3. 主动学习应用:高质量的不确定性可以用来指导主动学习过程,例如在样本高效的微调中,根据预测的效用和模型的不确定性选择数据点,以平衡探索和利用之间的权衡。
  4. 提高语言模型的事实性:通过增加模型对其有高信心(判断可能正确)的生成的偏好,使用对齐过程(例如RLHF、DPO)和奖励函数来鼓励有信心的生成。
  5. 人类决策中不确定性信息的使用:LLMs将通过决策对社会产生影响,为了做出合理的决策,需要不确定性信息——特别是为了防范罕见但代价高昂的错误。
  6. 跨学科合作:论文提到了人工智能、行为科学和人机交互之间的跨学科合作,以更深入地探索如何有效地向用户传达信心,并帮助他们适当地利用这些信心分数进行决策。
  7. 评估方法的改进:研究如何改进评估模型输出正确性的方法,特别是在开放性问题回答中,以更准确地反映模型性能。
  8. 模型信心的可视化表示:探索不同的方式来可视化和传达模型信心,以便用户能够更好地理解和利用这些信息。
  9. 模型鲁棒性的提升:研究如何提高模型在面对对抗性攻击或数据分布偏移时的鲁棒性。
  10. 伦理和社会影响:深入研究LLMs的伦理和社会影响,确保技术进步不会无意中导致负面后果。

这些探索点不仅涉及技术层面的改进,还包括对LLMs在实际应用中如何更好地服务于人类需求和社会价值的深入思考。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题识别:论文首先指出在高风险应用中使用大型语言模型(LLMs)时,准确判断模型预测的可信度是一个关键问题。目前对于LLMs是否能够准确表示不确定性,以及如何表示这种不确定性,学界并没有达成共识。
  2. 方法论:论文提出,仅通过提示(prompting)来实现LLMs的不确定性校准是不够的,而通过在正确和错误答案的小数据集上进行微调可以创建具有良好泛化能力的不确定性估计。
  3. 技术实现:论文采用了低秩适配器(LoRA)技术来微调模型,以改善不确定性估计。同时,论文还探讨了不同的参数化方法,包括仅使用探针(Probe)、LoRA以及结合LoRA和提示的方法。
  4. 实验验证:通过在MMLU数据集上的实验,论文验证了微调方法在多选题(MC)和开放式(OE)问题上的有效性,并通过预期校准误差(ECE)和接收者操作特征曲线下面积(AUROC)等指标来衡量模型的校准性能。
  5. 泛化能力:论文研究了微调后的模型在不同主题领域和问题格式上的泛化能力,包括跨领域和跨格式的评估。
  6. 人类-AI协作:通过用户研究,论文探讨了校准后的不确定性估计如何影响人类在使用LLMs时的决策过程,尤其是在人机协作环境中。
  7. 模型间不确定性估计:论文还探讨了使用一个模型来估计另一个模型的不确定性,这为在没有访问模型内部结构的情况下估计不确定性提供了可能性。
  8. 未来方向:论文提出了未来研究的方向,包括开发单一模型来同时生成答案和不确定性、探索不确定性感知的预训练或对齐阶段、以及提高语言模型的事实性和鲁棒性。
  9. 社会影响:论文讨论了LLMs在社会中的影响,特别是在决策制定中的作用,强调了提供校准良好的不确定性估计对于合理决策的重要性。
  10. 结论:论文得出结论,通过适当的微调,可以显著提高LLMs在不确定性估计方面的性能,这对于提高模型的可解释性、可信度和在实际应用中的安全性至关重要。

发表评论