大型语言模型对话:调优还是检索增强生成?

大型语言模型(LLMs)在近年来被广泛应用于人机对话的响应生成任务中,例如在开放域对话、知识型对话、任务型对话和问答等场景下。然而,现有的研究表明,LLMs 作为对话模型的替代品存在着一些缺陷,例如容易生成有毒、有偏见和不相关的响应。为了使 LLMs 适应不同的对话类型,研究人员提出了多种技术,包括上下文学习微调。此外,检索增强生成(RAG)等策略也被提出,旨在通过整合外部知识来提高生成质量。

本文将深入探讨不同技术在适应不同对话类型方面表现的差异,并分析这些技术在不同对话类型中的优劣势。

探索最佳适应技术

为了深入了解不同技术在适应不同对话类型方面的表现,本文选取了两种流行的 LLM,即 Llama2C 和 MistralI,并在四个对话类型中进行了实验:开放域对话 (ODD)、知识型对话 (KGD)、任务型对话 (TOD) 和问答 (QA)。

实验中,研究人员评估了上下文学习和微调两种技术,并考察了在两种场景下整合外部知识的影响:检索知识黄金知识。在检索知识场景中,研究人员使用 RAG 策略将外部知识添加到模型的输入中。在黄金知识场景中,研究人员直接将真实知识提供给模型,作为 RAG 的上限。

评估结果:自动评估与人工评估

研究人员使用一致的自动评估指标和人工评估协议对不同技术进行了评估。自动评估指标包括困惑度,而人工评估则关注上下文化、适当性、正确性有效性等方面。

自动评估结果显示,微调模型在所有对话类型中都比上下文学习模型表现更好。 然而,人工评估结果显示,两种技术在不同对话类型中的表现存在差异。

开放域对话 (ODD)

在 ODD 中,微调模型生成的相关响应明显少于上下文学习模型。人工评估结果表明,微调 Llama2C 和 MistralI 的上下文化程度分别降低了 40% 和 35%,适当性也分别降低了 30%。

知识型对话 (KGD)

在 KGD 中,结果取决于模型。对于 Llama2C,上下文学习模型在所有知识场景下都比微调模型生成更多相关的响应,上下文化程度高出 10%。然而,对于 MistralI,微调模型在检索知识场景下表现最好,上下文化程度高达 95%。

任务型对话 (TOD)

在 TOD 中,结果表明微调优于上下文学习。对于 Llama2C 和 MistralI,微调模型生成的上下文化响应分别高出 20% 和 15%。

问答 (QA)

在 QA 中,结果表明,整合知识可以提高上下文化程度和有效性,而使用黄金知识可以获得最佳结果。上下文学习模型的上下文化程度高出 5%。

解释负面人工评估结果

为了更好地理解不同技术的不足,研究人员分析了人工评估中负面评价背后的原因。研究人员发现,微调模型在所有对话类型中都比上下文学习模型更容易生成不相关的响应。

结论

本文对不同技术在适应不同对话类型方面的表现进行了深入分析,并考察了整合外部知识对响应生成的影响。研究结果表明,现有的自动评估指标存在局限性,需要进行人工评估才能更好地理解 LLMs 在对话任务中的表现。

研究结果还表明,没有一种通用的最佳技术可以适应所有对话类型,每种技术的有效性取决于基础 LLM 和具体的对话类型。此外,外部知识的正确整合取决于多种因素,例如检索器的准确性、知识的表示方式以及噪声数据的干扰。

参考文献

  • Alghisi, S., Rizzoli, M., Roccabruna, G., Mousavi, S. M., & Riccardi, G. (2023). Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue. arXiv preprint arXiv:2304.02422.

Q: 这篇论文试图解决什么问题?

A: 这篇论文研究了大型语言模型(Large Language Models,LLMs)在人机对话中生成回应时的局限性,并探讨了不同的技术方法来适应这些局限性。具体来说,论文试图解决的问题包括:

  1. LLMs的局限性:大型语言模型在对话中可能会生成有毒、有偏见或不相关的回应。
  2. 适应技术的评价:现有的文献中对不同对话类型(如开放式对话、知识型对话等)的LLMs适应技术的评价有限,且评价方法不一致。
  3. 对话类型的广泛性:研究不同LLMs适应技术在不同对话类型中的性能。
  4. 外部知识的影响:评估在检索增强生成(Retrieval-Augmented Generation,RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。

论文通过广泛的实验和分析,旨在找出哪种技术更适合不同类型的对话,以及如何有效地结合外部知识来提高对话生成的质量。

Q: 有哪些相关研究?

A: 论文中提到了多个与大型语言模型(LLMs)在对话系统中的应用和改进相关的研究。以下是一些主要的相关研究领域和具体工作:

  1. 开放式对话(Open-Domain Dialogue, ODD):
    • 使用序列到序列模型进行回应生成的研究(Li et al., 2017)。
    • 通过外部知识(如人物陈述、用户交互的个人图谱、检索文档)来提高生成质量的研究(Wolf et al., 2019; Kasahara et al., 2022; Xu et al., 2022b)。
  2. 知识型对话(Knowledge-Grounded Dialogue, KGD):
    • 使用维基百科等未结构化知识来生成一致且事实性的回答(Dinan et al., 2019; Gopalakrishnan et al., 2019; Komeili et al., 2022)。
    • 研究知识选择、不同知识表示、额外知识元素(如对话行为、主题)对生成质量的影响(Qin et al., 2023; Sun et al., 2023; Mousavi et al., 2023; Yang et al., 2023)。
  3. 任务型对话(Task-Oriented Dialogue, TOD):
    • 对LLMs进行微调以进行联合对话状态跟踪和回应生成的研究(Hosseini-Asl et al., 2020b; Kulhánek et al., 2021; Wang et al., 2022; Ding et al., 2024)。
    • 通过检索和基于检索的回应生成来增强TOD建模的研究(Feng et al., 2020; Kim et al., 2020, 2021; He et al., 2024; Raposo et al., 2023)。
  4. 问答(Question Answering, QA):
    • 需要检索相关文档以提供答案的研究(Lee et al., 2019; Qu et al., 2020)。
    • 使用BERT编码选择最相似文档的研究(Lee et al., 2019; Karpukhin et al., 2020)。
    • 通过微调LLMs在检索文档上进行条件生成的研究(Lewis et al., 2020; Izacard and Grave, 2021; Borgeaud et al., 2022)。
  5. 其他技术:
    • 探索使用上下文学习(in-context learning)与LLMs的研究(Brown et al., 2020; Chen et al., 2023; Meade et al., 2023)。
    • 提出改进生成质量的策略,如RAG(Lewis et al., 2020; Borgeaud et al., 2022)。

这些研究为本文的研究提供了背景和基础,同时也展示了在LLMs对话适应技术方面的研究进展。

Q: 论文如何解决这个问题?

A: 论文通过以下步骤和方法解决了大型语言模型(LLMs)在对话中生成回应的问题:

  1. 选择基础模型:选择了两个大型语言模型(Llama2C和MistralI)作为研究的基础。
  2. 定义对话类型:确定了四种对话类型进行实验:开放式对话(ODD)、知识型对话(KGD)、任务型对话(TOD)和问答(QA)。
  3. 选择数据集:为每种对话类型选择了相应的数据集,并对数据集进行了统计分析。
  4. 应用适应技术:对所选的LLMs应用了两种主要的适应技术——上下文学习(in-context learning)和微调(fine-tuning)。
  5. 评估外部知识的影响:研究了在检索增强生成(RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。
  6. 一致性评估:采用了一致的评估标准,包括自动评估指标(如困惑度)和人类评估协议。
  7. 解释性分析:使用集成梯度(integrated gradients)作为可解释性归因方法,分析了输入向量中每个部分的贡献。
  8. 开放的人类评估协议:设计了一个开放的人类评估协议,用于评估对话的情境化、适当性、正确性和有效性。
  9. 结果分析:对自动评估和人类评估的结果进行了详细分析,以确定不同技术在不同对话类型中的有效性。
  10. 讨论局限性:论文讨论了由于计算资源限制而只能使用7B模型进行实验的局限性,以及人类评估结果可能受到众包工作者选择的影响。

通过这些步骤,论文全面分析了不同技术在适应大型语言模型于不同对话类型时的效能,并强调了人类评估在避免自动评估指标带来的误导方面的重要性。

Q: 论文做了哪些实验?

A: 论文中进行了一系列实验来评估和比较不同的大型语言模型(LLMs)适应技术在不同对话类型中的性能。以下是实验的主要内容:

  1. 选择基础模型:选择了Llama2CMistralI这两种7B版本的模型作为研究的基础。
  2. 定义对话类型:实验涉及四种对话类型:开放式对话(ODD)、知识型对话(KGD)、任务型对话(TOD)和问答(QA)。
  3. 选择数据集:为每种对话类型选择了相应的数据集,包括DailyDialogWizard of Wikipedia、第九对话系统技术挑战赛(DSTC9)的数据集和NarrativeQA
  4. 适应技术评估:评估了两种主要的LLMs适应技术——上下文学习(in-context learning)和微调(fine-tuning)。
  5. 外部知识的影响:研究了在检索增强生成(RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。
  6. 自动评估:使用困惑度(perplexity)作为自动评估指标,对模型在不同对话类型上的性能进行了评估。
  7. 可解释性研究:通过计算集成梯度(integrated gradients),分析了输入向量中每个部分(指令、上下文、知识、话题和对话状态)的贡献。
  8. 人类评估:进行了开放的人类评估,评估了生成回应的情境化、适当性、正确性和有效性。
  9. 错误类型分析:分析了人类评估中负面判断的原因,包括通用性(Generic)、虚构性(Hallucinated)和不连贯性(Incoherent)等错误类型。
  10. 评估指标:使用了BLEU-4、F1、ROUGE-L和KF1等指标来自动评估生成文本的质量。
  11. 检索器性能:研究了检索器在每种对话类型中的性能,包括召回率(Recall@K)。
  12. 资源和实现细节:提供了实验的资源需求、模型参数、输入结构、指令选择和生成参数的详细信息。

这些实验的目的是全面评估不同技术在适应大型语言模型于不同对话类型时的效能,并强调了人类评估在避免自动评估指标带来的误导方面的重要性。

Q: 有什么可以进一步探索的点?

A: 根据论文内容,以下是一些可以进一步探索的点:

  1. 模型规模的影响:论文中使用的是7B参数的模型。未来的研究可以探索更大或更小规模的模型在对话适应技术中的表现。
  2. 不同优化器和学习率:研究不同优化算法和学习率对模型性能的影响,以及它们在不同对话类型中的适用性。
  3. 多样化的评估指标:除了自动评估指标和人类评估外,可以探索更多维度的评估方法,如情感分析、对话连贯性等。
  4. 跨领域适应:研究模型在不同领域间的适应能力,例如将医疗领域的对话模型迁移到法律领域。
  5. 多模态对话系统:将文本对话系统扩展到多模态对话系统,结合图像、声音等多种信息源。
  6. 实时对话系统:优化模型以适应实时对话系统的需求,例如减少延迟和提高响应速度。
  7. 个性化和用户定制:研究如何根据用户的个性化需求定制对话系统,提高用户体验。
  8. 对话系统的可解释性:提高对话系统的可解释性,让用户理解模型的决策过程。
  9. 安全性和隐私保护:研究如何在保证用户隐私的同时,提高对话系统的性能和安全性。
  10. 跨语言对话系统:探索跨语言对话系统的设计和实现,支持多种语言的对话。
  11. 长期对话管理:研究如何在长时间对话中维持上下文连贯性,避免遗忘和混淆。
  12. 知识更新和维护:研究如何定期更新对话系统背后的知识库,以保持信息的时效性和准确性。
  13. 错误分析和修正策略:深入分析模型生成的错误类型,并开发有效的错误修正策略。
  14. 用户反馈循环:设计用户反馈机制,让系统能够根据用户反馈进行自我改进。
  15. 道德和偏见问题:研究如何减少对话系统中的偏见和不公平现象,提高道德标准。

这些探索点可以帮助研究者和开发者进一步提升对话系统的性能,使其更加智能、灵活和用户友好。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 研究背景:大型语言模型(LLMs)在人机对话中生成回应时存在局限性,例如可能产生有毒、有偏见或不相关的回应。
  2. 研究目标:评估不同的LLMs适应技术,包括上下文学习和微调,以及它们在不同类型的对话(开放式对话、知识型对话、任务型对话和问答)中的有效性。
  3. 实验设计
    • 选择了两个基础LLMs:Llama2C和MistralI。
    • 针对四种对话类型选择了相应的数据集:DailyDialog(ODD)、Wizard of Wikipedia(KGD)、DSTC9(TOD)和NarrativeQA(QA)。
  4. 技术评估
    • 对比了上下文学习和微调技术。
    • 评估了在检索增强生成(RAG)和黄金知识情况下外部知识对回应生成的影响。
  5. 评估方法
    • 使用了一致的自动评估指标(如困惑度)和人类评估协议。
    • 采用了集成梯度作为可解释性归因方法。
  6. 主要发现
    • 没有一种适应技术在所有情况下都是最佳选择,其有效性取决于基础LLM和对话类型。
    • 人类评估对于避免自动评估指标带来的误导至关重要。
  7. 评估结果
    • 微调模型在自动评估中表现更好,但在人类评估中,上下文学习和微调各有优势。
    • 在问答(QA)中,包括知识可以提高回应的情境化和有效性。
  8. 错误分析
    • 分析了人类评估中负面判断的原因,如通用性、虚构性和不连贯性。
  9. 结论与局限性
    • 强调了人类评估在人机对话研究中的重要性。
    • 指出了研究的局限性,如模型规模限制和人类评估的可重复性问题。
  10. 未来工作
    • 提出了未来研究的方向,包括模型规模、优化器、学习率、评估指标、跨领域适应等方面的探索。

论文通过广泛的实验和分析,提供了对LLMs在对话中适应不同技术深入理解的见解,并强调了人类评估在评估对话系统性能时的重要性。


发表评论