引言
友情链接:ACEJoy
在如今这个人工智能飞速发展的时代,长语言模型(LLMs)如同一位不知疲倦的知识工作者,凭借其在自然语言理解任务中的出色表现,赢得了广泛的关注。然而,尽管其推理能力令人惊叹,这些模型仍然依赖于精心设计的提示,才能在各种任务中达到最佳表现。为了解决这一问题,研究者们提出了多种自集成技术,如“自一致性”(Self-Consistency,SC),通过多样化的“思维链”(Chain-of-Thought,CoT)推理路径生成,并将这些路径聚合,从而构建准确可靠的响应。
然而,自一致性方法并非没有缺陷。它们通常需要依赖准确的答案提取过程,以便在多个输出之间进行聚合。此外,这种方法的推理成本较高,因为生成的输出令牌数量相对较多。与贪婪解码方法相比,SC方法的计算成本显著增加。因此,研究人员尝试了结合多样化示例的提示与长语言模型的聚合能力,以提高文本生成的准确性和效率。
在本文中,我们提出了一种新的混合自集成方法——PEDAL(基于示例多样性聚合的提示),它将多样化示例提示的优势与长语言模型聚合相结合,从而在准确性和推理成本之间达到平衡。我们的实验结果表明,PEDAL在公开的SVAMP和ARC数据集上,能够实现比传统贪婪解码策略更高的准确性,同时在推理成本上也优于自一致性方法。
相关工作
长语言模型的应用范围广泛,包括代码生成、金融分析、法律推理等多个领域。但在所有任务中,似乎没有任何单一的模型能够始终如一地超越其他模型。这种现象促使研究者们探索集成方法,以提高整体性能。
自集成策略
自集成策略通过组织语言模型生成的“思维”成树状结构以进行解题搜索。尽管这种方法有效,但它们通常依赖于自定义聚合方法来构建最终输出。最近的研究表明,利用长语言模型进行多数共识聚合可以有效解决这一问题。在我们的工作中,我们采用类似的策略来聚合多个候选响应,并重点关注多样化提示在聚合过程中的作用。
提示集成策略
随着长语言模型的普及,众多研究集中于开发有效的提示技术,这些技术通过多种提示集成方法得以扩展以进一步提高性能。我们的方法也采用了类似的提示构建策略,但在聚合预测时不依赖于针对特定任务的模型训练。我们更关注通过提示策略来降低长语言模型的推理成本,而不是提升基于自一致性的方法。
长语言模型推理成本
为了解决推理成本问题,研究者们通常探索模型压缩技术,如模型量化、剪枝和蒸馏等。这些方法旨在在不显著影响性能的情况下减少模型的体积。在我们的研究中,我们的目标是减少长语言模型推理中的输出令牌数量,从而在实现更高准确度的同时降低推理成本。
方法论
我们的系统构架如图1所示,长语言模型通过贪婪解码策略,使用基于多样化示例的提示生成多个候选响应,然后通过同一模型聚合这些响应,生成最终输出。
多样化示例的提示构建
传统的思维链方法依赖于固定示例集的单一提示,而我们的方法通过随机选取示例来构建多个提示,从而进一步提升长语言模型的推理能力。每个提示都基于不同的种子设置,生成候选响应。
基于LLM的聚合
我们遵循自一致性的方法,利用长语言模型对多个候选响应进行聚合,以提取最终响应。
实验
我们选择了两个公开可用的数据集以验证我们的实验:
- SVAMP:包含简单的数学文字问题。
- AI2 Reasoning Challenge (ARC):包含从3至9年级的科学考试问题,并分为“ARC-Easy”和“ARC-Challenge”两个部分。
在每个数据集的验证分割上进行实验,我们比较了PEDAL与多种基线策略的表现,包括贪婪解码、自一致性和统一多样化示例等。
结果与分析
我们的实验结果显示,PEDAL在准确性和推理成本上均优于贪婪解码和自一致性方法。具体而言,在SVAMP数据集中,PEDAL的准确率达到了77.89%,而贪婪解码的准确率为76%。在ARC数据集中,PEDAL的表现同样优于贪婪解码。
算术推理
在SVAMP数据集中,PEDAL的准确率提升了1.89%。而在ARC数据集中,PEDAL的准确率也显示出一定的提升。尽管自一致性方法在准确率上略高,但PEDAL的推理成本显著低于自一致性。
多项选择题回答
在ARC数据集的实验中,PEDAL的表现略优于贪婪解码,展现出其在处理多样化问题时的优势。
与思维链的比较
PEDAL的输出令牌消耗在大多数情况下低于自一致性,显示出其在推理效率上的优势。我们相信,未来的研究将进一步探讨这两种方法在实际应用中的优缺点。
多样化提示数量的影响
我们发现,随着多样化提示数量的增加,PEDAL的性能也有所提升,这表明多样化示例的引入对提高模型的准确性具有积极作用。
结论
本文提出的PEDAL方法通过结合多样化示例与长语言模型的输出聚合,展现出了在准确性和推理成本方面的双重优势。尽管我们的实验集中在小型数据集上,未来我们计划将这一方法扩展到更广泛的文本生成任务中,以深入探讨其潜力。
参考文献
- Arora et al. (2022). Ask me anything: A simple strategy for prompting language models.
- Brown et al. (2020). Language models are few-shot learners.
- Chen et al. (2023b). Universal self-consistency for large language model generation.
- Zhao et al. (2023). A survey of large language models.
- Wang et al. (2022). Self-consistency improves chain of thought reasoning in language models.