PEDAL：用多样化示例增强贪婪解码的长语言模型

引言

友情链接：ACEJoy

在如今这个人工智能飞速发展的时代，长语言模型（LLMs）如同一位不知疲倦的知识工作者，凭借其在自然语言理解任务中的出色表现，赢得了广泛的关注。然而，尽管其推理能力令人惊叹，这些模型仍然依赖于精心设计的提示，才能在各种任务中达到最佳表现。为了解决这一问题，研究者们提出了多种自集成技术，如“自一致性”（Self-Consistency，SC），通过多样化的“思维链”（Chain-of-Thought，CoT）推理路径生成，并将这些路径聚合，从而构建准确可靠的响应。

然而，自一致性方法并非没有缺陷。它们通常需要依赖准确的答案提取过程，以便在多个输出之间进行聚合。此外，这种方法的推理成本较高，因为生成的输出令牌数量相对较多。与贪婪解码方法相比，SC方法的计算成本显著增加。因此，研究人员尝试了结合多样化示例的提示与长语言模型的聚合能力，以提高文本生成的准确性和效率。

在本文中，我们提出了一种新的混合自集成方法——PEDAL（基于示例多样性聚合的提示），它将多样化示例提示的优势与长语言模型聚合相结合，从而在准确性和推理成本之间达到平衡。我们的实验结果表明，PEDAL在公开的SVAMP和ARC数据集上，能够实现比传统贪婪解码策略更高的准确性，同时在推理成本上也优于自一致性方法。

方法论

我们的系统构架如图1所示，长语言模型通过贪婪解码策略，使用基于多样化示例的提示生成多个候选响应，然后通过同一模型聚合这些响应，生成最终输出。

多样化示例的提示构建

传统的思维链方法依赖于固定示例集的单一提示，而我们的方法通过随机选取示例来构建多个提示，从而进一步提升长语言模型的推理能力。每个提示都基于不同的种子设置，生成候选响应。

基于LLM的聚合

我们遵循自一致性的方法，利用长语言模型对多个候选响应进行聚合，以提取最终响应。

实验

我们选择了两个公开可用的数据集以验证我们的实验：

SVAMP：包含简单的数学文字问题。
AI2 Reasoning Challenge (ARC)：包含从3至9年级的科学考试问题，并分为“ARC-Easy”和“ARC-Challenge”两个部分。

在每个数据集的验证分割上进行实验，我们比较了PEDAL与多种基线策略的表现，包括贪婪解码、自一致性和统一多样化示例等。

结果与分析

我们的实验结果显示，PEDAL在准确性和推理成本上均优于贪婪解码和自一致性方法。具体而言，在SVAMP数据集中，PEDAL的准确率达到了77.89%，而贪婪解码的准确率为76%。在ARC数据集中，PEDAL的表现同样优于贪婪解码。

算术推理

在SVAMP数据集中，PEDAL的准确率提升了1.89%。而在ARC数据集中，PEDAL的准确率也显示出一定的提升。尽管自一致性方法在准确率上略高，但PEDAL的推理成本显著低于自一致性。

多项选择题回答

在ARC数据集的实验中，PEDAL的表现略优于贪婪解码，展现出其在处理多样化问题时的优势。

与思维链的比较

PEDAL的输出令牌消耗在大多数情况下低于自一致性，显示出其在推理效率上的优势。我们相信，未来的研究将进一步探讨这两种方法在实际应用中的优缺点。

多样化提示数量的影响

我们发现，随着多样化提示数量的增加，PEDAL的性能也有所提升，这表明多样化示例的引入对提高模型的准确性具有积极作用。

结论

本文提出的PEDAL方法通过结合多样化示例与长语言模型的输出聚合，展现出了在准确性和推理成本方面的双重优势。尽管我们的实验集中在小型数据集上，未来我们计划将这一方法扩展到更广泛的文本生成任务中，以深入探讨其潜力。

参考文献

Arora et al. (2022). Ask me anything: A simple strategy for prompting language models.
Brown et al. (2020). Language models are few-shot learners.
Chen et al. (2023b). Universal self-consistency for large language model generation.
Zhao et al. (2023). A survey of large language models.
Wang et al. (2022). Self-consistency improves chain of thought reasoning in language models.

PEDAL：用多样化示例增强贪婪解码的长语言模型

相关工作

自集成策略

提示集成策略

长语言模型推理成本

方法论

多样化示例的提示构建

基于LLM的聚合

实验

结果与分析

算术推理

多项选择题回答

与思维链的比较

多样化提示数量的影响

结论

参考文献

评论

发表回复取消回复

更多文章

🧠 逻辑之迷:揭秘思维陷阱的奥秘

🧠《智者的进化：解密 GRPO 算法的奥秘》

搜索引擎的未来：从过去到未来

🌐 在信息海洋中航行：应对 AI 信息焦虑的智慧之道

从序列到单词：T-REG如何重新定义大模型的偏好优化

PEDAL：用多样化示例增强贪婪解码的长语言模型

相关工作

自集成策略

提示集成策略

长语言模型推理成本

方法论

多样化示例的提示构建

基于LLM的聚合

实验

结果与分析

算术推理

多项选择题回答

与思维链的比较

多样化提示数量的影响

结论

参考文献

评论

发表回复 取消回复

更多文章

🧠 逻辑之迷:揭秘思维陷阱的奥秘

🧠《智者的进化：解密 GRPO 算法的奥秘》

搜索引擎的未来：从过去到未来

🌐 在信息海洋中航行：应对 AI 信息焦虑的智慧之道

从序列到单词：T-REG如何重新定义大模型的偏好优化

发表回复取消回复