用链式知识提示增强语言模型的推理能力

摘要:


友情链接:ACEJoy


 

最近,基于思想链(CoT)的提示在复杂推理任务中取得了成功,其目标是设计一个简单的提示,如“让我们逐步思考”或多个具有精心设计的理由的上下文示例,以引导大型语言模型(LLM)生成中间推理步骤。然而,生成的理由通常会伴随着错误,导致不真实和不诚实的推理链。为了减轻这种脆弱性,我们提出了一种新颖的基于知识的链式提示(CoK),目标是引导 LLM 生成形式为结构三元组的明确知识证据。这受到了我们人类行为的影响,即在回答复杂问题之前,我们可以在脑海中绘制思维导图或知识图作为推理证据。得益于 CoK,我们进一步引入了一种 F^2 验证方法,以估计推理链在事实性和忠实性方面的可靠性。对于不可靠的回答,可以指出错误的证据以引导 LLM 重新思考。大量实验证明,我们的方法可以进一步提高常识、事实、符号和算术推理任务的性能。

正文:

1. 介绍

  1. 大型语言模型(LLM)在许多自然语言处理(NLP)任务中取得了最先进的性能。
  2. 上下文学习(ICL)是一个蓬勃发展的研究课题,旨在通过对少数标记示例进行条件化来生成预测。
  3. LLM 可以自发地将复杂的多步骤问题分解为中间推理链。
  4. CoT 提示是一种通过将显式结构知识证据与文本解释相结合来提示 LLM 生成推理链的方法。
  5. CoK 提示是一种新颖的方法,它通过一系列将显式结构知识证据与文本解释相结合的示例来增强 LLM 的推理能力。
  6. 对问题的非事实性推理可能导致错误的答案,并且当 LLM 生成逻辑上合理的推理链时,但仍然提供不正确的答案时,响应可能是不忠实的。
  7. 为了解决这些问题,提出了一种新颖的基于知识的链式(CoK)提示方法来增强 LLM 的推理能力。
  8. CoK 提示由两部分组成:证据三元组(CoK-ET)和解释提示(CoK-EH)。
  9. CoK-ET 是一个结构三元组列表,反映了从查询到答案的整体推理证据。
  10. CoK-EH 是对这些证据的解释。
  11. 为了构建具有 CoK 提示的上下文示例,我们首先对 K 个标记示例进行采样,每个示例都可以与一个简单的提示“让我们逐步思考”连接起来。
  12. 然后,我们从外部知识库(KB)中检索一些结构三元组,并通过人工精心注释证据三元组来获得设计良好的 CoK 提示。
  13. CoK 提示可以被视为一个规则,它规范了输出空间/格式,并敦促 LLM 生成明确的证据,而不是仅仅尝试生成模糊的文本推理链。

2. 相关工作

  1. 上下文学习(ICL)是一种因果语言建模任务,允许 LLM 通过设计良好的基于文本的提示进行零样本/小样本学习。
  2. ICL 可以绕过模型参数更新,并通过对少数标记示例进行条件化来实现显着的性能。
  3. 以前的工作已经探索了一些 ICL 的影响方面,例如输入输出映射、模板格式以及示例的不同选择和排列。
  4. 为了提高 ICL 的有效性,已经提出了一些新颖的方法,包括元学习、提示和示例工程、通过输入上下文示例获取 LM 偏好、通过自适应机制找到合适的示例组织以及预测校准。
  5. 与以往的工作不同,我们的工作重点是 LLM 的推理能力,包括推理提示设计和输出验证。
  6. 提出 CoT 提示是为了利用推理和可解释的信息来指导 LLM 生成可靠的响应。
  7. 提出了一系列 CoT 增强方法来进一步提高推理能力。
  8. LLM 推理的知识利用包括利用外部知识和工具来帮助模型完成推理任务。
  9. 刘等。[2023b] 将计算物理引擎集成到语言建模过程中,以模拟潜在结果,并将它们用作输入的一部分来驱动模型进行推理。
  10. 变色龙通过结合各种工具和知识资源来增强 LLM。

3. 方法

  1. 生成的推理链有时会有错误,最终导致得出错误的答案。我们将这种挑战归咎于文本推理链:大型语言模型(LLM)可能会强制生成一种符合 CoT 提示格式的文本理性,但逻辑上模棱两可,导致得出
  2. 错误的答案。为了应对这种挑战,我们考虑了两个核心方面。
  3. 提示的生成方式。仅使用文本提示链并不能充分发挥 LLM 生成可靠和具体的推理过程的能力。受到 KB 中三元组结构的影响,我们需要用结构特征增强提示。
  4. 验证。LLM 通常无法检查它们已回答的答案,这需要我们利用外部知识进行验证。基于这些考虑,我们提供了如何提高 LLM 推理能力的具体解决方案。该框架的概述如图 2 所示。
  5. 框架说明。推理可以建模为现有知识系统中的归纳和演绎。这是受到人类行为启发的,人们会画思维导图或知识图来分析问题并找到通往答案的正确路径。幸运的是,我们可以采用 KB 中三元的概念,将其视为“主体,关系,对象”,以形式化推理链的明确证据。
  6. 建议的生成方式。我们首先使用链-of-knowledge(CoK)提示生成示例。然后,可以使用 CoK 提示让 LLM 生成包括证据三元组、解释提示和最终答案的推理链。最后,我们估计推理链在事实性和可靠性方面,不可靠的链将被重新考虑。
  7. 建议的生成方式。为了便于 LLM 生成文本理性,我们可以采用 KB 中三元组的概念,将其视为“主体,关系,对象”,以形式化推理链的明确证据。CoK-ET 表示从 LLM 中支持逐步思维过程的多个三元组列表。CoK-EH 表示推理链的解释,类似于普通的 CoT。例如,在图 1 中,我们可以要求 LLM 生成两个明确的证据:“德雷克·怀特是一名篮球运动员”和“篮球投篮通常用于曲棍球或网球”以及一个文本解释,以支持最终答案“不”。
  8. 挑战。构建文本理性,使其结构符合 CoK 三元组,是 CoK 提示生成中的关键挑战。如图 2 所示,我们首先进行示例构建,以获得一个设计良好的任务特定提示。具体而言,我们遵循 Wei 等。[2022,Wang 等。2022c] 的指导,随机选择 K 个问题作为基本示例。要自动获得 CoK-EH,我们遵循 Kojima 等。[2022] 的方法,使用简单的提示“让我们一步一步地思考”生成零样本 CoT 的文本理性。另一个挑战是如何获得更好的表示文本理性。

4. 实验设置

  1. 实验共选择了五种类型的任务,包括常识和事实推理、算术推理、符号推理等,具体任务和数据集如下:
  2. 常识和事实推理任务使用了 CommonSenseQA、StrategyQA、OpenBookQA、AI2 Reasoning Challenge (ARC-c)、BoolQ 等数据集,其中使用了 Wikitude 6、ConceptNet、Wikidata5M、ATOMIC、GLUCOSE、ASER、CausalBank 等知识库。
  3. 算术推理任务使用了 GSM8K、SVAMP 等数据集,其中使用了 AQuA、MultiArith 等算法。
  4. 符号推理任务使用了 Last Letter Concatenation、Coin Flip 等任务,其中手动构建了每个词的词典知识库。
  5. 在我们的实验中,首先使用了几手/零手标准提示(SP)作为基线,然后使用了一些 SOTA CoT 方法作为强大的基线,如 Chain-of-thought (CoT)、Zero-shot-CoT 和 Auto-CoT 等。
  6. 常识和事实推理任务在多个数据集上进行了比较,发现在几手/零手学习场景下,CoK 提示的性能表现良好,可以超过之前 CoT 策略的表现。这表明将显性证据三倍体和解释相结合可以提高 LLM 的推理能力。

5. 结论

  1. 提出了一种名为 chain-of-knowledge prompting 的方法,旨在将大语言模型的推理链分解成多个证据三元组和解释提示,以进一步提高推理能力。
  2. 根据 chain-of-knowledge prompt,引入了 F2-Verification,完全利用外部知识库对生成的推理链进行事实性和可靠性后验证。
  3. 采用重新思考过程,注入知识以纠正虚假证据三元组,并使大语言模型重新生成答案。
  4. 在多个推理任务上取得了比其他提示方法更好的结果。
  5. 在未来,计划进一步改进其他规模的大语言模型的性能,将知识库扩展到搜索引擎以实现实时验证,并对大语言模型的推理进行可解释性分析。
  6. 工作基于对大型语言模型的提示方法,在多个基准测试集上取得了优秀的性能。
  7. 然而,它仍然具有以下局限性:(1)知识库中的证据三元组是有限的,可能无法确保对模型所有问题的全面覆盖。(2)在重新思考算法的背景下,CoK 可能需要比经典的 CoT 方法更多 API 调用。
  8. 在社会影响方面,使用的知识库都是来自公共数据来源。
  9. 将事实知识注入模型推理过程不会引入额外的偏见。
  10. 它可以在某种程度上防止模型提供不负责且有害的答案。
  11. 在 12 个公开的可用于推理任务的基准数据集上对 CoK 进行了评估,涵盖了算术推理、常识推理、符号推理和自然语言理解任务。
  12. 数据集统计信息如表 5 所示,每个数据集的详细信息如下所示。
  13. CoK 在多个基准测试集上取得了比其他提示方法更好的结果。

发表评论