大型语言模型的“不知道”:一种新的不确定性敏感训练方法

大型语言模型(LLMs)在各种任务中展现出惊人的能力,但仍然面临着诸如幻觉等挑战。幻觉是指LLMs生成与事实不符或毫无意义的响应。造成幻觉的一个潜在原因是缺乏相关知识或上下文。因此,一个很有前景的解决方案是指示LLMs在问题超出其知识范围或提供的上下文时,回答“我不知道”。然而,在这项研究中,我们观察到LLMs难以承认其知识的局限性,这主要是因为现有的指令数据集旨在鼓励特定的答案。


友情链接:ACEJoy


 

为了提高大型语言模型识别其知识边界的能力,我们提出了一种名为“不确定性敏感训练”的新方法。该方法包含一个两阶段训练过程,专门针对不确定性识别和提示敏感激活。在第一阶段,我们引导LLMs拒绝未知问题。在第二阶段,我们通过整合设计的因果指令来恢复问答任务中下降的性能。通过利用这种方法,我们旨在增强模型识别不确定性区域的能力。

LLMs 为什么难以承认“不知道”?

现有的研究表明,在训练数据和过度估计方面存在不确定性。模型倾向于模仿训练集中的输出,导致对不足的疑问-上下文对生成合理的答案,从而产生幻觉。此外,模型可能对其能力过于自信,无法识别未知问题。

为了解决这个问题,一些研究人员建议提示LLMs承认其知识的缺乏。然而,这样做会导致LLMs忽略提示中包含的重要指令。如图1所示,即使有明确的指令,例如“如果上下文不足以回答问题,请用‘未提供’回答”,LLMs仍然可能利用提供的语料库之外的知识。

不确定性敏感训练:两阶段训练方法

为了增强大型语言模型识别其知识局限性的能力,我们提出了一种名为“不确定性敏感训练”的新训练框架。该方法包含一个两阶段训练过程,专门针对不确定性识别和提示敏感激活。

第一阶段:不确定性识别训练

第一阶段重点训练模型,使其对知识的缺乏有准确的意识。我们将其任务定义为一个二元分类问题。问题被分为两种类型:已知问题和未知问题。已知问题是指具有足够上下文信息来提供答案的问题。相反,未知问题是指缺乏足够上下文信息来提供答案的问题。模型需要检测提供的上下文是否足以回答问题。

第二阶段:提示敏感训练

通过不确定性识别训练,模型可以识别给定上下文的边界。然而,模型可能对未知问题过于敏感。在第一阶段之后,模型确实学习了如何准确地回答未知问题。但是,具有特定答案的问题的性能下降了近27%。我们假设在未知问题上进行微调的模型会遇到提示敏感度降低的问题,并且可能会破坏一些理想情况下会导致更好生成的指令。

我们根据指令影响响应的因素将其分为因果因素和非因果因素。因果因素很重要,因为它们直接影响响应,而非因果因素对结果的影响很小。指令中的控制条件,例如响应的字数,是典型的因果因素。额外的指令,例如“如果输入有文件名,请给我一个参考”,是非因果因素,因为它可能不会改变答案。在训练过程中,LLMs可能会忽略这种类型的指令,因为它并不总是直接有助于答案。但是,非因果因素对问题同样重要。例如,一本书的介绍可能与主要内容无关,导致读者低估其价值。然而,它在增强读者对内容的理解方面起着至关重要的作用。

基于此,我们进一步提出了提示敏感训练,旨在引导模型完成提示中的所有指令。提示敏感训练包含两个子任务:添加因果指令和指令审查。我们使用GPT-4来合成所需的数据并将其提炼到目标模型中。

  • 因果指令合成:通过指示GPT-4生成保证会影响最终响应的控制要求,我们获得了额外的因果指令。然后,为了提高模型的指令敏感度,我们随机将一个因果指令插入到原始的QA指令中。例如,限制输出的字数、时态或格式。然后,我们提示GPT-4以新的指令进行响应,并记录对话数据以微调较小的模型。
  • 指令审查合成:指令审查模块旨在使用模型本身来验证所有指令是否已完成。模型将递归地重新生成,直到它通过利用在附录A.4中记录的自定义提示获得完美的答案。指令审查的过程在算法1中进行了说明。

实验结果

我们对主流大型语言模型进行了评估,包括Llama2-Chat-7B、GPT-4 Turbo、GPT-3.5 Turbo、Vicuna-7B v1.5和Self-RAG-7B。

实验结果表明,大多数大型语言模型难以准确识别未知问题,准确率仅为50%左右。然而,GPT-4是一个显著的例外,它以显著的优势超过了第二好的模型Llama2,领先了25.3%。Llama2在剩余的模型中排名最高,甚至超过了GPT-3.5,尽管后者具有更多参数。但是,GPT-4与其他模型之间仍然存在相当大的性能差距。正在进行的实验旨在调查造成这种差异的原因。

我们微调的模型在不确定性识别测试中与GPT-4的表现相当,并且在响应上下文中显示出比基线模型提高了25.9%。然而,尽管在未知问题(Accunknown)方面超过了GPT-4,但这种对不确定性的意识增强导致模型的原始问答能力下降。在HotpotQA数据集上进行进一步的微调导致模型在遵循指令方面变得不太可靠,有时会忽略其知识局限性。在测试的模型中,不确定性敏感微调模型排名最高,获得了85.8的F1分数,比GPT-4高出4.2分,比基线高出18.6分。这种令人印象深刻的性能归因于模型在回答问题和承认其缺乏提供答案的必要信息之间的理想平衡。它在未知问题上实现了93.0%的准确率,在所有主流LLMs中最高,同时在已知问题上保持了79.7%的准确率。此外,该模型有效地整合了新信息,而不会影响其现有的知识库,完美地保留了其从认知微调中学到的知识。

结论

在这篇论文中,我们探讨了大型语言模型应用中的一个常见问题,即提示中上下文不足会导致生成看似合理但错误的响应,这种现象被称为幻觉。首先,我们的研究表明,大型语言模型通常无法识别何时缺乏足够的信息来准确地响应查询。我们主要将这个问题归因于模型缺乏识别何时提供的上下文不足以回答所提出的查询的能力。其次,在使用没有特定答案的问题进行训练过程中,具有答案的问题的性能下降了。为了解决这些问题,我们提出了一种名为“不确定性敏感训练”的新训练方法。这是一个两阶段的训练框架。在第一阶段,我们引导LLMs拒绝未知问题。在第二阶段,我们通过整合设计的因果指令来恢复问答任务中下降的性能。这种方法显著增强了Llama2-chat-7B模型处理查询的可靠性,减少了幻觉的发生。我们的方法与以前的工作不同,它更直接地关注通过有针对性的微调来改进模型的响应行为,从而提高其在实际场景中的性能。通过开源这个框架和模型,我们相信它将为自动合成指令数据集指明一个新的方向,这个方向不仅关注数据的多样性,还关注训练过程中的幻觉减少。

参考文献

  • Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
  • Touvron, J., Lachaux, M., Lample, G., Bordes, A., Aziza, S., Jaffre, J., Seddah, D., et al. (2023). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
  • OpenAI. (2023). GPT-4 technical report. Retrieved from https://openai.com/research/gpt-4.
  • Stelmakh, D., Khot, S., Talmor, A., and Goldberg, Y. (2022). ASQA: A dataset of ambiguous questions and answers. arXiv preprint arXiv:2204.09202.
  • Yang, Z., Yih, W., He, X., Liu, J., and Zhou, M. (2018). HotpotQA: A dataset for diverse, challenging, and informative question answering. arXiv preprint arXiv:1809.09628.
  • Zheng, Z., Yuan, L., Zhang, Y., Li, Y., Zhang, Y., Zhang, B., and Zhou, M. (2024a). Vicuna: An open-source chatbot trained on a massive dataset of human-chat conversations. arXiv preprint arXiv:2306.01575.
  • Zheng, Z., Yuan, L., Zhang, Y., Li, Y., and Zhou, M. (2024b). LLaMA-Factory: A framework for efficient and scalable fine-tuning of large language models. arXiv preprint arXiv:2306.01575.
  • Hu, J., Shen, L., Zhang, Z., He, X., Liu, Z., and Sun, M. (2021). LoRA: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
  • Zhou, B., Li, Y., and Yang, Y. (2023). Towards trustworthy large language models: A comprehensive survey. arXiv preprint arXiv:2303.12145.

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大型语言模型(LLMs)在处理问题时面临的”幻觉”(hallucinations)问题。幻觉是指LLMs生成的回答要么事实上错误,要么毫无意义。这个问题的一个潜在原因是模型缺乏相关知识或上下文。论文指出,现有的指令数据集设计倾向于鼓励具体的答案,导致LLMs难以承认它们知识的局限性,即难以回答”我不知道”。

为了改善LLMs识别其知识边界的能力,论文提出了一种新颖的方法,称为”不确定性敏感调整”(uncertainty-sensitive tuning)。这种方法包括两个阶段的训练,旨在不确定性识别和提示敏感激活。第一阶段是引导LLM拒绝未知问题,在第二阶段,通过整合设计的因果性指令,恢复QA任务中降低的性能。通过这种方法,论文的目标是提高模型识别不确定性领域的能力。

具体来说,论文的主要贡献包括:

  1. 研究了为什么LLMs倾向于忽略数据集中的重要指令,并将此归因于对不确定性的敏感性不足。
  2. 构建了一个新颖的数据集,用于不确定性意识评估,帮助评估模型对知识差距的认识。
  3. 提出了一种新颖的两阶段微调范式,指导模型拒绝没有足够上下文的问题,减少在这种情况下的幻觉概率。

实验结果表明,该方法显著提高了Llama2-chat-7B模型的性能,特别是在处理涉及知识差距的问题方面,与原始模型相比提高了34.7%。此外,该方法的表现超过了GPT-4,整体性能提高了9.4%。

Q: 有哪些相关研究?

A: 论文中提到了多个与大型语言模型(LLMs)幻觉问题和指令数据集训练相关的研究。以下是一些主要的相关研究:

  1. 幻觉与不确定性: 一些研究关注于通过测量和缓解不确定性来识别幻觉。例如,Lu et al. (2023) 提出了一种功能性的不确定性测量方法,并得出不确定性与准确性之间存在相关性的结论。CAD (Shi et al., 2023) 提出了一种对比方法来测量生成知识的不确定性,通过在提供上下文时增加输出概率来限制模型。
  2. LLMs与外部知识: 研究表明,在提示中整合最新的相关知识可以有效地减少与事实冲突的幻觉。例如,Zhou et al. (2023) 提出了多种格式的提示整合附加知识。
  3. 指令数据集训练: 为了提高LLMs的性能,有研究提出了合成指令数据的方法。例如,Self-Instruct (Wang et al., 2023) 提出了使用ChatGPT生成各种指令的方法。
  4. 特定任务的LLMs训练: 一些研究专注于通过提供特定任务的训练数据来提高LLMs的性能。例如,PURR (Chen et al., 2023) 在生成中添加了一个LLM去噪器,用于检测生成中的幻觉。
  5. 自我反思的LLMs: Self-RAG (Asai et al., 2023) 采用了类似的方法,使用LLMs筛选提供的上下文,避免无关信息的干扰。
  6. R-Tuning: R-Tuning (Zhang et al., 2024) 指导LLMs拒绝未知问题,但主要关注拒绝领域外问题。
  7. 其他相关工作: 论文还提到了其他一些研究,如Kang和Hashimoto (2020) 关于改进自然语言生成的研究,以及Lewis等人 (2020) 关于检索增强生成的研究。

这些研究为理解LLMs在处理未知问题时的局限性提供了背景,并为提出新的训练方法提供了理论基础。论文通过综合这些研究成果,提出了一种新的两阶段训练方法,旨在提高LLMs在面对不确定性时的表现。

Q: 论文如何解决这个问题?

A: 论文通过提出一种名为“不确定性敏感调整”(uncertainty-sensitive tuning)的方法来解决LLMs在处理未知问题时的幻觉问题。这个方法包括以下关键步骤:

  1. 问题定义:首先定义研究问题,将任务设置为开放书籍问答任务,模型需要根据任务指令、具体问题和给定上下文生成答案。
  2. 初步探索未知问题:通过在超出提供上下文的问题上对Llama2-Chat-7B模型进行初步微调,发现模型在处理未知问题时存在两个主要弱点:无法准确拒绝未知问题,以及在问答任务中性能下降。
  3. 两阶段训练策略
    • 第一阶段:不确定性识别调整(Uncertainty-Recognition Tuning):将任务视为二元分类问题,训练模型识别是否有足够的上下文信息来回答问题。这个阶段的目的是让模型学会在信息不足时拒绝回答。
    • 第二阶段:提示敏感调整(Prompt-Sensitive Tuning):在第一阶段训练后,模型可能对未知问题过于敏感,导致在回答具体问题时性能下降。这个阶段包括因果性指令合成和指令审查两个子任务,目的是恢复模型在问答任务中的性能,同时提高模型对指令的敏感性。
  4. 因果性指令合成:使用GPT-4生成影响最终回答的控制要求,然后将这些因果性指令随机插入原始问答指令中,以提高模型对指令的敏感性。
  5. 指令审查合成:使用模型自身来验证所有指令是否完成,通过自定义提示递归地重新生成答案,直到得到完美答案。
  6. 实验验证:通过构建新的指令微调数据集和评估数据集,对提出的方法进行实验验证。实验结果表明,不确定性敏感调整方法显著提高了Llama2-chat-7B模型在处理涉及知识差距问题时的性能,并在整体性能上超过了GPT-4。

通过这种方法,论文旨在提高模型识别不确定性领域的能力,并在实际应用场景中提高其性能。同时,论文还将框架和模型开源,以促进自动合成指令数据集的新方向,这不仅关注数据的多样性,还减少了训练过程中的幻觉。

Q: 论文做了哪些实验?

A: 论文中进行了一系列的实验来评估和验证所提出的不确定性敏感调整方法。以下是实验的主要步骤和内容:

  1. 数据集构建
    • 构建了两个新的指令微调数据集,分别用于二元不确定性识别调整和提示敏感微调。
    • 利用ASQA数据集生成未知问题,通过将问题与不完全相关的上下文配对,引入处理不确定性的挑战。
    • 基于HotpotQA数据集,生成了包含额外因果指令的提示敏感微调数据集。
  2. 实验设置
    • 在多个主流大型语言模型(LLMs)上进行实验,包括Llama2-Chat-7B、GPT-4 Turbo、GPT-3.5 Turbo、Vicuna-7B v1.5和Self-RAG-7B。
    • 使用Lora方法在单个GPU上进行微调,设置特定的训练参数。
  3. 评估指标
    • 使用Accknown表示模型在具体问题上回答的准确性。
    • 使用Accunknown表示模型在未知问题上回答的准确性。
  4. 结果
    • 展示了不同模型在QA不确定性识别评估和后缀不确定性识别评估中的表现。
    • 通过实验发现,大多数LLMs在准确识别未知问题上存在困难,但GPT-4在这些任务中表现突出。
  5. 消融研究
    • 为了量化不确定性识别调整、HotpotQA调整和提示敏感调整的效果,构建了三个额外的变体进行消融实验。
    • 分析了模型在不同训练数据集下的表现,探讨了模型在拒绝未知问题时性能下降的原因。
  6. 性能提升分析
    • 通过不确定性识别调整,模型在未知问题上的回答准确性显著提高。
    • 提示敏感调整有助于恢复模型在其他问题上的性能,解决了过调优导致的提示敏感性降低问题。
  7. 结论
    • 实验结果表明,不确定性敏感调整方法显著提高了Llama2-chat-7B模型处理查询的可靠性,减少了幻觉的发生。

这些实验不仅验证了所提出方法的有效性,还展示了其在不同模型和数据集上的应用潜力。通过开源框架和模型,论文鼓励进一步的研究和开发,以提高LLMs在实际应用中的性能和可靠性。

Q: 有什么可以进一步探索的点?

A: 论文在最后部分提出了两个主要的局限性,并指出了未来可以进一步探索的方向:

  1. 长尾问题(Long-tail Problem)
    • 当使用含有有限数量未知问题的新型数据集进行调整时,大型语言模型(LLMs)可能会遇到长尾问题。这意味着模型可能在处理大量不常见的问题类型时表现不佳。
    • 为了解决这个问题,未来的工作可以探索更针对性的微调策略,以适应特定类型的数据集。
  2. 预训练阶段的参数知识(Parametric Knowledge)
    • 论文指出,他们没有深入探讨或分析Llama2在初始预训练阶段学到的参数知识。微调数据集可能与Llama2的预训练数据重叠。
    • 未来的工作可以探索现有方法,通过监测内部参数来测量模型不确定性(例如,Lu et al., 2023的工作),从而深入了解模型的知识差距和长尾弱点。

此外,以下是一些其他可能的研究方向:

  • 模型不确定性量化:研究如何更精确地量化模型在不同输入上的不确定性,以便更好地理解其知识限制。
  • 针对性微调策略:开发新的微调方法,使微调后的LLM能够更好地处理特定类型的查询或任务。
  • 减少数据集偏差:研究如何构建或选择数据集,以减少潜在的偏差,并提高模型的泛化能力。
  • 提高模型的自我认知能力:探索如何让模型更好地理解自己的知识范围,以及在何时应该回答“我不知道”。
  • 多模态学习:考虑将视觉、声音等多种模态的数据整合到训练中,以提高模型对复杂问题的理解能力。
  • 模型鲁棒性:研究如何提高模型在面对错误信息或故意误导时的鲁棒性。
  • 实时应用和反馈循环:探索模型在实时应用中的性能,并根据用户反馈进行动态调整。
  • 伦理和可解释性:研究如何在提高性能的同时,确保模型的决策过程是透明和可解释的,以及符合伦理标准。

这些方向可以帮助研究者们进一步提高LLMs的性能,增强其在各种复杂环境中的可靠性和实用性。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是提出并验证了一种名为“不确定性敏感调整”(uncertainty-sensitive tuning)的方法,旨在改善大型语言模型(LLMs)在面对未知问题时的应对能力,减少幻觉现象。以下是论文的主要内容概述:

  1. 问题识别:论文首先指出LLMs在处理问题时,如果缺乏相关知识或上下文,可能会产生幻觉,即生成事实错误或无意义的回答。
  2. 现有挑战:现有的指令数据集设计倾向于鼓励具体答案,导致LLMs难以在知识不足时承认“我不知道”。
  3. 方法提出:为了解决这一问题,论文提出了不确定性敏感调整方法,这是一个包含两个阶段训练的框架:
    • 第一阶段(不确定性识别调整):引导LLM拒绝未知问题,即当问题超出其知识范围时。
    • 第二阶段(提示敏感调整):恢复模型在问答任务中的性能,通过整合设计的因果性指令。
  4. 实验设计:论文构建了新的数据集,进行了实验验证,并与其他主流LLMs进行了比较。
  5. 实验结果:实验结果显示,不确定性敏感调整方法显著提高了Llama2-chat-7B模型的性能,特别是在处理涉及知识差距的问题方面,与原始模型相比提高了34.7%,并且整体性能超过了GPT-4。
  6. 贡献总结
    • 研究了LLMs忽略重要指令的原因。
    • 构建了用于评估模型对知识差距认识的新数据集。
    • 提出了新的两阶段微调范式,减少了幻觉发生的概率。
  7. 未来工作:论文提出了未来研究的方向,包括解决长尾问题和深入分析模型在预训练阶段学到的参数知识。
  8. 伦理声明:论文指出,虽然使用了公共数据集构建基准和数据集,可能存在固有偏见,但所采用的技术没有引入超出数据呈现的额外偏见。

通过这些研究和方法,论文为提高LLMs的可靠性和减少幻觉提供了有价值的见解,并为未来的研究和应用奠定了基础。


发表评论