标签： AGI

实时去偏：解释导向的人类监督机器学习系统决策
引言

机器学习（Machine Learning, ML）系统现在广泛应用于人类生活的各个关键领域，如招聘、金融和医疗等。这些系统可以降低人为错误，提高效率和可扩展性，并增强决策过程的准确性。然而，随着ML系统在与人类密切相关的领域中的使用日益增多，关于其决策公平性的担忧也在增加。例如，2018年，路透社发现亚马逊的简历筛选算法存在年龄和性别偏见，该算法对包含“女性”一词的简历和显示出较老申请者的毕业年份的简历进行了降级处理。尽管亚马逊迅速废除了该有偏见的算法，但很可能在其意识到不公平影响之前，该算法已被部署了数月。为了减少此类伦理问题，在ML系统的开发和部署前后持续进行公平性测试是至关重要的。

目前，软件工程社区已经做出了各种努力，借鉴传统软件测试技术，首先搜索并减轻ML中的歧视。例如，Udeshi等人介绍了AEQUITAS，这是一种探索ML模型输入空间中的歧视性实例的公平性测试技术，然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。虽然当前的方法已被证明是有效的，但它们主要集中在开发阶段检测和解决歧视问题。在ML系统部署后的操作期间进行公平性测试的研究相对较少。为了解决这一差距，本研究提出了一种框架，用于持续监控已部署的ML系统，以评估其公平性。

背景

在讨论公平性、公平性测试、反事实解释和人类审查之前，我们需要先了解一些基本术语。

公平性

在ML系统中的决策公平性是指不存在基于个人或群体固有或获得属性的偏见或偏好。制定公平性是解决公平性问题和开发公平ML模型的第一步。在简单的术语中，假设ML预测模型 $h$ 在决策时使用了包含敏感属性 $S$ 和其他属性 $Z$ 的数据集进行训练。公平性可表示为：

$F(X, Y, h, S, Z) = h(X, S, Z) ≈ h(X, S', Z)$

这意味着模型 $h$ 在去除任何潜在偏见后，对同一组个体应做出相同的决策。

个体公平性

个体公平性确保相似的个体无论其保护属性如何，都应得到相似的结果。假设 $X$ 代表一组属性（或特征）， $Q$ 代表一组受保护的属性。个体公平性定义为：

$f(x_i) = f(x_{i'})$

其中， $f$ 为ML分类器， $x_i$ 和 $x_{i'}$ 代表具有相似非保护属性但可能具有不同保护属性的两个个体。

公平性测试

公平性测试是软件测试的一个分支，专注于暴露ML系统中的公平性漏洞。公平性测试可以分为离线和在线测试。离线公平性测试是在模型开发期间进行的，仅评估模型在给定训练数据上的公平性。相反，在线公平性测试是在ML系统部署后，使用实际输入数据持续监控和评估其公平性。

反事实解释

反事实解释是一种识别改变给定预测所需的最小变化的技术。通过提供与观察结果相似但产生不同结果的特定数据实例，反事实解释帮助理解某些因素对结果的直接影响。反事实解释的公式如下：

$c = \arg\min \text{loss}(f(c), y) + |x - c|$

其中， $x$ 为输入特征， $f$ 为模型， $y$ 为模型的输出， $c$ 为导致不同输出的反事实实例。

将人类审查嵌入ML系统

在ML系统的自动决策过程中，嵌入人类审查和监督（即人类在环）可以有效减少系统中的偏见。人类审查的主要目的是对ML模型的输出进行最终检查，以确保决策公平、无偏和准确。人类审查通常作为回顾性审查进行，即在ML系统运行后对其决策进行审查。

相关工作

文献中提出了多种方法来识别ML系统中的个体歧视。例如，Galhotra等人介绍了Themis，通过随机抽样输入空间来创建测试案例，并通过观察系统在测试中的行为来评估歧视性事件的频率。Udeshi等人提出了AEQUITAS，一种双阶段搜索的公平性测试技术，探索输入空间中的歧视性实例，然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。

与现有方法相比，我们的工作聚焦于在线公平性测试，评估ML系统在运行期间的公平性。

方法

本节介绍了我们提出的概念模型。该模型旨在实时监控和缓解ML系统中的偏见，如贷款申请系统。过程如下图所示：

反事实生成

反事实生成过程包括输入一个输入实例 $x$ ，并使用预训练的ML模型 $f$ 生成反事实实例 $c_1, c_2, …, c_n$ ，这些实例具有不同的保护属性组合。

偏见检测

自动偏见检测组件分析反事实生成过程的输出，以确定是否存在对原始实例的歧视。如果存在反事实示例，则会标记为需要人类审查；否则，ML模型的决策保持不变。

人类审查

人类审查在评估ML系统的公平性方面起着关键作用。自动偏见检测组件标记的歧视性实例和相应的反事实示例会传递给人类审查组件进行最终评估。人类审查提供了对系统行为的全面理解，允许在运行时识别和纠正不公平的偏见。

使用案例示例

示例1：医疗系统

在医疗系统中，使用ML系统评估患者并预测再入院的可能性。如果模型对某些人口群体做出了有偏见的决定，可以通过反事实解释和自动偏见检测组件检测到这一偏见。

示例2：教育系统

在教育系统中，模型可以用于监控和解决招生委员会决策过程中的偏见。例如，反事实生成和自动偏见检测组件可以识别少数群体申请者在招生过程中是否被不公平地引导。

示例3：贷款/信用评分系统

在贷款/信用评分系统中，模型可以识别对黑人和少数群体申请者的偏见。利用反事实解释和自动偏见检测组件，这些偏见可以被标记并进行人类审查。

示例4：刑事司法系统

在刑事司法系统中，模型可以用于预测被告再犯的可能性。反事实生成和自动偏见检测组件可以揭示模型对黑人被告的歧视性决策。

示例5：招聘系统

在招聘系统中，模型可以识别对女性候选人的偏见。通过反事实生成和自动偏见检测组件，可以揭示系统的有偏见决策。

结论

本文提出了一个概念模型，用于通过人类审查和反事实解释在实时中跟踪和纠正个体歧视。我们的框架利用反事实解释的力量来识别ML系统中的歧视实例，并包括一个人类审查组件来减轻这些偏见。未来，我们计划构建并部署该系统，并进行公平性测试以确保其在实际操作中公正和公平。

参考文献
1. Mamman, Hussaini et al., “Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions”, 13th Computer Science On-line Conference, Lecture Notes on Networks and Systems, Springer, April 2024.
2. Udeshi, S., et al., “AEQUITAS: A Fairness Testing Technique for Machine Learning Systems”, 2018.
3. Galhotra, S., et al., “Themis: Automatically Testing Software for Discrimination”, 2017.
4. Kusner, M., et al., “Counterfactual Fairness”, 2017.
5. Yang, S., et al., “BiasRV: Detection of Gender Discrimination in Sentiment Analysis Systems”, 2020.
2024 年 6 月 28 日
AI 通过人类反馈强化学习实现对齐？矛盾与局限
引言

我们选择“有用、诚实、无害”作为标准，因为它们简单易记，并且似乎涵盖了我们希望对齐的 AI 系统的大部分内容。

人类反馈强化学习（RLHF）展示了一种确保人工智能（AI）监督和安全的方法，通过价值对齐实现。这种方法最近在提高大型语言模型（LLM）的性能方面发挥了重要作用，使用 RLHF 进行微调，以生成更“自然”的文本，并在聊天机器人设置中生成合理的对话响应。AI 公司和研究人员常常声称，RLHF 微调确保了他们市场和销售的 LLM 符合（或“对齐”）人类价值观，特别是通过以“有用”、“无害”和“诚实”（3H）方式回应。这种“价值对齐”通常通过一个过程实现，在这个过程中，众包工人根据 3H 标准对 LLM 输出进行排序，例如评价一个回答的有用性。

本文对 RLHF 是否适合作为 AI 安全和伦理 AI 方法进行了详细分析和批评。我们结合技术、哲学和系统安全的视角，揭示了 LLM、RLHF、对齐目标以及构建和提供通用 AI 系统之间复杂互动中的根本局限和矛盾。

背景

人类反馈强化学习

RLHF 作为一种机器学习技术，利用人类偏好或注释来优化 LLM。RLHF 被认为是 OpenAI 的 ChatGPT、Anthropic 的 Claude 和 Meta 的 Llama 等成功的背后技术。该技术通常在已经预训练的 LLM 上作为最后的微调步骤进行。通过众包工人对模型输出进行排序，人类偏好数据集被创建，随后训练奖励模型，用于优化 LLM 的输出策略。

AI 反馈强化学习

尽管 RLHF 在限制或阻止生成不良输出方面取得了一定成效，但其仍有局限性。高质量的人类标签是实现 RLHF 最大效益所必需的，这使得扩展过程非常困难。因此，AI 反馈强化学习（RLAIF）被提出以减轻这种瓶颈而不影响性能。RLAIF 涉及使用预训练的大型语言模型提供输入，包括任务描述和示例，从而输出偏好数据。

技术批评

RLHF 的技术批评主要集中在收集人类反馈、训练奖励模型和训练策略方面。许多挑战被认为是可以在 RLHF 框架内解决的，而另一些则需要替代方法。

灵活性的诅咒

LLM 现被构建为通用代理，这带来了软件架构的复杂性和不可解性，从而阻碍了系统所需功能的适当表达、工程和验证。这种现象在系统安全领域得到了充分理解，被称为灵活性的诅咒。计算系统的更大能力和灵活性导致了许多严重事故，因为软件的复杂性使得“没有人能理解软件应该做什么或者不应该做什么”。

RLxF 的局限性

无害性

AI 不应直接或通过潜台词或偏见表现出冒犯或歧视。然而，所谓的“最不有害”选择仍然可能包含有害元素，这样的选择往往只是相对最少的伤害，而不是彻底避免伤害。

诚实性

AI 应该提供准确的信息，并在表达不确定性时不误导用户。然而，LLM 缺乏内省能力，无法真正表达对其响应的信心水平，这使得诚实性成为一个复杂的问题。

有用性

AI 应该尽可能简洁和高效地完成任务或回答问题。然而，过度追求有用性可能会导致在某些情况下支持有害请求，从而危及无害性。

对齐

对齐是确保 LLM 行为符合人类价值观和偏好的过程。然而，由于不存在单一的普遍价值集，不同文化和社会群体的价值观可能存在显著差异，这使得对齐成为一个复杂且有争议的问题。

RLxF 的内部张力和伦理问题

增加的有用性可能导致欺骗

RLxF 可能会增加 LLM 输出的类人性，从而误导用户，使其误以为自己在与另一个人类代理互动。这种误导可能会导致用户对 LLM 输出的错误信任或不当使用。

谄媚：有用性和无害性的错位

LLM 倾向于迎合用户的观点，这种行为被称为谄媚。这种行为部分源于 RLxF，因为假设用户是正确的可以提高表面上的有用性和无害性。然而，这可能导致牺牲真相（或“诚实”）以换取表面的有用性和无害性。

RLxF 可能导致价值强加和文化同质化

RLxF 通过使 LLM 输出更加可预测、安全和可控，可能会在无意中加强某些文化和社会群体的价值观，从而限制了其他群体的自主性。这种同质化可能会导致语言使用的多样性减少，不适当地影响不同社区的表达实践。

RLxF 增加了伦理不透明性

RLxF 导致了相当程度的“伦理不透明性”。偏好数据的标准往往模糊且未定义，用户和公众通常不知道谁在生成这些偏好数据。这种不透明性使得很难评估 RLxF 对商业 LLM 的具体影响。

重启安全与对齐：整合 AI 伦理与系统安全

工程实现价值对齐：不可能的任务

RLxF 作为引入伦理保障的策略，尽管有其吸引力，但在实现 AI 价值对齐的雄心勃勃的项目中不可避免地失败。人类价值、需求和目标的多样性，以及人类所处情境的多样性，使得没有一种对齐技术可以成为一刀切的解决方案。

走向安全和伦理 AI 设计的整合方法

如果我们希望部署安全、伦理的 AI 系统，包括 LLM，那么 RLxF 所代表的狭隘工程方法必须扩大到包括通过社会技术和系统视角实现安全的概念。安全标准和伦理评估需要在使用背景中进行，并涵盖社会技术系统的各个层面。

结论

本文挑战了关于使用 RLxF 和 3H 实现 AI 安全和对齐的主张。从社会技术视角出发，我们对这一方法的理论和实践元素进行了批判，强调了其局限性、内在张力和矛盾。RLxF 可能适用于增强 LLM 的类人行为，但这种微调技术不会提升系统安全或伦理 AI，相反，它引发了新的问题。

参考文献
- Adam Dahlgren Lindström, et al. (2024). AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations. arXiv.
Q: 这篇论文试图解决什么问题？

A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要关注和批判性地评估了通过人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）方法来调整人工智能（AI）系统，尤其是大型语言模型（Large Language Models, LLMs），使其与人类价值观和意图一致的尝试。论文指出了这种方法在实现诚实（honesty）、无害（harmlessness）和有帮助（helpfulness）等广泛追求的对齐目标时存在的不足和局限性。

具体来说，论文试图解决的问题包括：
1. 理论基础的不足：RLHF方法在理论上如何捕捉人类伦理的复杂性，并为AI安全做出贡献存在疑问。
2. 实践实施的限制：在实际应用中，RLHF方法在确保AI系统符合人类价值观方面存在明显的局限性。
3. 内在的矛盾和冲突：RLHF的目标在追求诚实、无害和有帮助时存在内在的矛盾。
4. 伦理相关问题的忽视：在关于对齐和RLHF的讨论中，往往忽视了与伦理相关的重要问题，如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。
论文通过多学科的社会技术批评，揭示了RLHF方法的这些限制，并呼吁研究人员和实践者批判性地评估RLHF的社会技术影响，倡导在AI发展中采用更加细致和反思性的方法。

Q: 有哪些相关研究？

A: 论文中提到了多项相关研究，它们从不同角度探讨了人工智能对齐、强化学习、大型语言模型以及伦理问题。以下是一些在论文中引用的相关研究：
1. Askell et al., 2021: 提出了“有帮助、诚实、无害”作为AI对齐的标准，因为它们简单易记，并能捕捉我们对对齐AI的大多数期望。
2. Christiano et al., 2017: 展示了如何通过人类反馈来进行复杂的强化学习任务，而无需直接访问奖励模型。
3. Bender et al., 2021: 讨论了大型语言模型可能产生的有害、有毒和不真实的内容。
4. Dinan et al., 2021: 提出了一种框架和工具，用于预测端到端对话AI中的安全问题。
5. Jawahar et al., 2019: 研究了BERT模型对语言结构的学习情况。
6. Goldberg, 2019: 评估了BERT模型的句法能力。
7. Schulman et al., 2015: 提出了一种用于近策略优化（Proximal Policy Optimisation, PPO）的技术。
8. Leveson, 2012: 提出了“灵活性的诅咒”（curse of flexibility）概念，讨论了软件系统的灵活性如何导致安全问题。
9. Bai et al., 2022a, 2022b: 讨论了如何使用人类反馈来训练一个有益和无害的助手，以及通过AI反馈来提高无害性。
10. Casper et al., 2023: 提供了RLHF的开放问题和局限性的分类。
11. Ouyang et al., 2022: 研究了如何使用人类反馈来训练语言模型以遵循指令。
12. Liu et al., 2023, 2024: 分析了RLHF在确保LLMs与人类意图对齐方面的重要性，并探讨了诚实与有帮助之间的冲突。
13. Kirk et al., 2023a, 2023b, 2024a, 2024b: 探讨了LLM对齐的现有工作，以及RLHF对LLM泛化和多样性的影响。
14. Miceli and Posada, 2022: 讨论了数据生产装置，以及数据标注者可能受到的激励，以及他们如何影响AI系统的价值观。
15. Narayanan et al., 2023: 指出模型对齐可以防止意外伤害，但不能防止故意的伤害。
这些研究涵盖了从技术实现、伦理问题到系统安全等多个方面，为论文提供了丰富的背景和论据。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤来解决和批判性地评估AI对齐问题：
1. 多学科社会技术批评：结合技术、哲学和系统安全的观点，对RLxF（包括RLHF和RLAIF）技术的理论基础和实际实施进行详细分析和批评。
2. 分析RLHF和RLAIF技术：概述了这两种技术的基本工作原理和它们在优化大型语言模型（LLMs）方面的应用。
3. 指出3H标准的问题和局限性：深入探讨了诚实（honesty）、无害（harmlessness）、有帮助（helpfulness）这三大标准在实践中的不足和问题。
4. 讨论RLxF引发的伦理问题：分析了通过RLxF对齐AI时可能产生的伦理风险，如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。
5. 提出替代方案：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，该方法集成了社会技术分析、系统安全学术研究和伦理思考。
6. 强调系统安全的重要性：论文指出，为了实现AI的安全和伦理，需要采用包括组织和制度干预在内的社会技术系统方法。
7. 呼吁更多的反思和细致的方法：论文最后呼吁研究人员和实践者批判性地评估RLxF的社会技术影响，并倡导在AI发展中采用更加细致和反思性的方法。
8. 提出研究挑战：识别了在系统安全方面需要解决的新研究挑战，例如如何减少软件的复杂性，以及如何优先考虑更小、更具目的性的模型和架构。
通过这些步骤，论文不仅揭示了当前AI对齐方法的局限性，而且提出了一种更为全面和综合的方法来处理AI技术带来的挑战。

Q: 论文做了哪些实验？

A: 根据提供的论文内容，这篇论文似乎并没有直接进行实验操作，而是采用了批判性分析和理论探讨的方法。论文的主要内容集中在以下几个方面：
1. 理论分析：对通过人类反馈的强化学习（RLHF）方法进行理论上的评估，特别是针对大型语言模型（LLMs）的对齐问题。
2. 社会技术批评：从多学科的角度，对社会技术系统和AI对齐方法进行批评性分析，揭示了这些方法在理论上的不足和实践中的局限性。
3. 伦理问题探讨：讨论了RLHF和RLAIF方法可能引发的伦理问题，包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
4. 文献综述：引用了多篇相关研究，对现有文献进行综述，以支持论文中的观点和论据。
5. 问题和局限性的列举：列举了RLHF方法在技术实施上的挑战和局限性，如收集人类反馈、训练奖励模型和训练策略等方面的问题。
6. 替代方法的提出：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，强调了社会技术分析、系统安全学术研究和伦理思考的重要性。
7. 系统安全的重要性强调：讨论了系统安全在AI对齐中的作用，并提出了一些关于如何改进AI系统设计和反馈机制的建议。
总的来说，这篇论文更侧重于理论探讨和批判性分析，而不是实验研究。它通过分析现有文献、提出问题和局限性，以及讨论伦理和社会技术问题，来质疑和反思当前AI对齐方法的有效性和安全性。

Q: 有什么可以进一步探索的点？

A: 论文提出了一些关于人工智能对齐和强化学习从人类反馈（RLHF）方法的批判性观点，并指出了若干可以进一步探索的领域。以下是一些可能的研究方向：
1. 价值观的多样性和动态性：研究如何在AI系统中更好地处理和适应不同文化、社会和个人价值观的多样性和变化。
2. 伦理框架的集成：开发更全面的伦理框架，以指导AI系统的设计和决策过程，确保它们的行为符合广泛的伦理标准。
3. 社会技术系统方法：探索如何将社会技术系统的观点更深入地集成到AI开发中，以考虑技术部署的更广泛社会影响。
4. 系统安全和稳健性：研究如何提高AI系统的安全性和稳健性，特别是在面对故意的操纵和滥用时。
5. 用户界面和交互设计：研究如何设计用户界面和交互方式，以减少对用户的误导，并提高对AI系统能力和限制的透明度。
6. 数据和模型的偏见：深入研究和解决AI模型中的数据偏见问题，确保模型的公正性和无歧视性。
7. 可解释性和透明度：提高AI系统的可解释性，让用户和利益相关者更好地理解系统的决策过程。
8. 跨学科合作：促进不同学科之间的合作，如计算机科学、伦理学、社会学和心理学，以更全面地解决AI对齐问题。
9. 政策和法规：研究如何制定有效的政策和法规，以指导AI技术的发展和应用，确保其符合社会伦理和安全标准。
10. 长期影响评估：评估AI技术长期对社会结构和个人行为的影响，以及如何设计系统以减轻潜在的负面影响。
11. 技术替代方案：探索替代技术或方法，如更小规模、特定用途的AI模型，这些模型可能更容易进行需求工程和本地化适应。
12. 教育和公众参与：研究如何通过教育和公众参与提高对AI技术的理解，以及如何让更广泛的社会群体参与到AI伦理和政策的讨论中。
这些探索点可以帮助研究者、开发者和政策制定者更全面地理解和应对AI技术带来的挑战。

Q: 总结一下论文的主要内容

A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要探讨了通过人类反馈的强化学习（RLHF）方法在实现人工智能（AI）特别是大型语言模型（LLMs）与人类价值观和意图对齐方面的尝试，并对其存在的矛盾和局限性进行了批判性分析。以下是论文的主要内容总结：
1. 问题提出：论文指出RLHF方法被广泛用于改善AI系统的性能，尤其是LLMs，以期达到诚实、无害和有帮助的目标，但这种方法存在明显的局限性。
2. 技术背景：介绍了LLMs的基本概念，以及RLHF和基于AI反馈的强化学习（RLAIF）技术如何被应用于LLMs的微调过程。
3. 理论批评：从技术、哲学和系统安全的角度，对RLHF方法进行了批评，揭示了在捕捉人类伦理复杂性方面的不足。
4. 3H标准的局限性：详细分析了诚实、无害和有帮助这三大标准在实际应用中的问题和局限性。
5. 伦理问题探讨：讨论了RLHF可能引发的伦理问题，包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
6. 社会技术批评：强调了需要从社会技术系统的角度来评估RLHF的影响，而不仅仅是技术层面。
7. 替代方法提出：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，强调了社会技术系统分析、系统安全学术研究和伦理思考的重要性。
8. 系统安全的重要性：讨论了系统安全在AI对齐中的作用，并提出了一些关于如何改进AI系统设计和反馈机制的建议。
9. 结论：论文最后得出结论，RLHF方法虽然在某些方面有益，但不足以实现AI的安全和伦理，需要采取更加全面和细致的方法来处理AI技术带来的挑战。
10. 致谢：论文最后感谢了支持这项研究的机构和项目。
整体而言，论文对当前AI对齐方法的有效性和安全性提出了质疑，并呼吁采取更加综合的方法来应对AI发展中的伦理和社会技术问题。
2024 年 6 月 27 日

用对比学习优化本地监督：无辅助网络的高效方法

引言

反向传播（Backpropagation，简称 BP）自 1986 年提出以来，一直是深度学习的基本工具。然而，BP 存在两个固有的限制。首先，在正向和反向传播过程中需要权重对称，使得 BP 在生物学上难以实现（Liao et al., 2016）。虽然生物学上的逼真性和学习算法的有效性之间的因果关系尚未明确，但许多深度学习研究都尝试模拟人类的生物和认知过程（Fei et al., 2022；Taniguchi et al., 2022）。其次，正向传播只能在反向传播完全完成后才能启动（反向锁定），反之亦然（正向锁定），这导致计算效率低下，因为并行化受限。此外，由于权重梯度计算需要存储每一层的局部激活，内存使用也不高效。

为了解决这些问题，提出了几种 BP 替代方案。反馈对齐（Feedback Alignment，简称 FA）用固定的随机权重取代对称反馈权重，但仍受到正向/反向锁定的限制。其继任者直接反馈对齐（Direct Feedback Alignment，简称 DFA）直接将误差信号传播到每一层，以缓解反向锁定问题。然而，DFA 并没有解决正向锁定问题。为此，本地监督通过最小化局部损失来利用局部权重更新。具体而言，本地学习（Local Learning，简称 LL）使用模块化辅助网络进行局部 BP，以处理局部输出并与目标对齐进行局部损失计算。尽管辅助网络使现有的 LL 达到了与 BP 相当的性能，但每个模块都使用辅助网络显著增加了模型参数。

本地监督的新方向：前向学习

一种较新的本地监督方法完全消除了 BP 和辅助网络。本文称这种方法为前向学习（Forward Learning，简称 FL）。在 FL 中，每层的权重更新通过层特定的局部损失引导，避免了正向/反向锁定问题，显著提高了计算效率。在没有 BP 和辅助网络的情况下，实施 FL 的关键在于制定局部目标以进行损失计算。例如，前向前向算法（Forward-Forward，简称 FF）通过将独热编码标签叠加到图像上，定义局部目标，将它们视为图像中的单独像素。由于局部输出包含目标信息，基于 FF 的方法通过优化局部输出的自点积来实现对比学习目标。然而，这使得 FL 场景中的对比学习容易受到局部输出中与任务无关的信息的影响，导致性能不如 BP 和 LL。

我们的研究表明，辅助网络在减轻与任务无关信息的影响方面起着关键作用。针对没有辅助网络带来的挑战，我们提出了一种简单但有效的局部对比学习目标——词典对比学习（Dictionary Contrastive Learning，简称 DCL），它有效地将局部输出与标签嵌入向量对齐。我们评估了 DCL 的两个版本：一个使用静态标签嵌入向量，适用于 FL 场景；另一个使用自适应标签嵌入向量。值得注意的是，静态方法在 FL 场景中显著优于现有的 FL 基准，通过更有效地丢弃与任务无关的信息。而自适应方法展示了与 BP 和 LL 相当的性能，同时在参数和内存效率方面显著优于 LL。

背景

对比学习在表示学习中是一种强大的工具，其在 LL 和 FL 背景下的有效性也得到了证明。InfoPro（Wang et al., 2020）是一种 LL 方法，比较来自模块化辅助网络的局部特征。相比之下，基于 FF 的方法利用局部特征的自点积，因为这些特征包含标签信息。Wang 等人（2020）中，对于来自前向传递层的一批局部输出，局部对比损失定义如下：

[
L_{\text{contrast}} = – \frac{1}{i \ne j \cdot 1_{y_i=y_j}} \sum_{i \ne j} \left[1_{y_i=y_j} \log \frac{\exp(a_i^\top a_j / \tau)}{\sum_{k=1}^N 1_{i \ne k} \exp(a_i^\top a_k / \tau)} \right], \quad a_i = f_\phi(h_i),
]

其中 (\tau) 是温度超参数，(y \in {1, …, Z}) 是真实标签，(f_\phi) 是辅助网络。在公式（1）中，(a_i) 和 (a_j) 是正特征，满足 (y_i = y_j)。此函数旨在最大化正特征之间的相似性，同时最小化负特征之间的相似性。当辅助网络 (f_\phi) 是一个恒等函数时，该目标表示 FL 场景。为了方便起见，我们用 (L_{\text{feat}}) 来表示 (f_\phi(h) = h) 时的 (L_{\text{contrast}})。请注意，本文的主要目标是在没有辅助网络的情况下，通过对比学习提高性能。为此，(L_{\text{feat}}) 可以被视为将进一步详细阐述的基础框架。

尽管基于 FF 的方法和 InfoPro 利用对比学习概念来制定局部目标，但基于 FF 的方法性能不及 InfoPro（LL）。此外，在完全相同的设置下，我们比较了 (L_{\text{contrast}}) 和 (L_{\text{feat}}) 的性能，并报告了显著的性能差距。这些发现强调了辅助网络在局部对比学习中的重要性，为我们提出目标在没有辅助网络的情况下开发一个出色的局部对比学习框架奠定了基础。

方法

动机

为了在没有辅助网络的情况下利用局部对比学习提高模型性能，我们首先通过检查辅助网络的作用来设计方法。我们认为，(L_{\text{contrast}}) 和 (L_{\text{feat}}) 之间的显著性能差异可以归因于存在互信息 (I(h, r))，其中 (r) 是输入 (x) 中的任务无关变量。然后，给定一个任务相关变量 (y)，可以得出 (I(r, y) = 0)，因为互信息 (I) 表示通过观察另一个随机变量获得的关于一个随机变量的信息量。(L_{\text{feat}}) 最大化局部特征之间的相似性，而不是特征与标签之间的相似性。因此，最大化局部特征之间的相似性可能也会增加 (I(r+, rp))，误导模型认为任务无关信息是有意义的特征。

在这方面，辅助网络有能力过滤掉 (r)，减轻 (r) 在 LL 中的影响。然而，在没有辅助网络的 FL 中，(r) 的影响变得更加明显和有害。这可能解释了现有对比学习在 FL 场景中的性能较差。

词典对比损失

为了在 FL 中解决 (r) 的问题，我们提出了一种新颖的目标，直接最大化局部特征 (h) 与对应目标标签的嵌入向量之间的相似性。

将标签映射到嵌入向量

为了从每个目标标签 (y_z) 获得标签嵌入 (t_z)，我们定义一个嵌入映射函数 (f_m)。嵌入映射函数 (f_m: N \to R^{CD}) 是一个从标签到 CD 维度标签嵌入向量的一对一映射，可以直接与密集局部特征进行比较。每个标签嵌入向量 (t) 初始化为标准正态随机向量，其每个元素都是从标准正态分布中独立同分布的随机变量。对于 Z 类标签，我们有一个标签嵌入词典 (D_Z = {f_m(y_z) | y_z \in {1, …, Z}})，其中 (f_m(y_z) = t_z)。

局部特征

我们旨在优化标签嵌入向量 (t) 与局部特征 (h) 之间的相似性。首先，由于局部特征的形状可能因不同架构而异，我们将 (h) 的表示标准化。我们将第 l 层的局部特征表示为 (h_l \in R^{C_l \times K_l})，其中 (K_l) 是 (C_l) 维特征向量的数量。因为每层的 (C_l) 可能不同，我们定义标签嵌入向量的维度 (CD) 为 (C_l) 的最大值。对于全连接层（FC），我们将平坦化的输出向量 (h_{\text{flat}} \in R^{C_l \times K_l}) 重新整形为 (h_l \in R^{C_l \times H_l \times W_l})，其中 (C_l) 表示通道维度，而 (H_l) 和 (W_l) 表示特征图的高度和宽度。通过设置 (K_l = H_lW_l)，我们保持特征图中 (C_l) 维向量的完整性。为防止跨层 BP，我们使用停止梯度操作符 sg[·]，使得 (h_l = f_l(\text{sg}[h_{l-1}]))。

训练目标

最终预测层 (f_L) 的权重通过标准交叉熵损失进行更新。所有其他层 (f_l) 的权重通过词典对比损失 (L_{\text{dict}}) 更新。对于一批局部特征 ({h_n}_{n=1}^N)，我们最小化损失：

[
L_{\text{dict}} = – \log \frac{1}{N} \sum_{n=1}^N \frac{\exp(\langle \bar{h}n, t_z^+ \rangle)}{\sum{z’=1}^Z \exp(\langle \bar{h}n, t{z’} \rangle)},
]

其中我们定义 (\bar{h}n := \frac{1}{K} \sum{k=1}^K h_{n,k})，(\langle·, ·\rangle) 表示点积，标签嵌入向量 (t^+) 对应于 (h_n) 的标签。局部特征向量的维度可能因不同层而异。为了将 (t_z \in R^{CD}) 的向量维度对齐到 (\bar{h} \in R^{C_l})，我们为每层使用一维平均池化 (pool_l: R^{CD} \to R^{C_l})。

在本文中，我们仅在 FL 场景中应用静态标签嵌入向量，以应对层权重和标签嵌入权重不能同时更新的限制。技术上，这种限制使我们的自适应方法部分前向/后向锁定，尽管这种锁定在实际中是有限且可以忽略的。然而，为了公平评估完全前向/后向解锁的其他 FL 方法，我们的静态方法在整个训练过程中保持初始标签嵌入权重不变，使得 (t_{\text{static}} = \text{sg}[t_z])。相比之下，在不受 FL 特定限制的场景中，标签嵌入向量是自适应的，通过 (L_{\text{dict}}) 的误差信号在每层更新其权重。图 2 展示了使用 (L_{\text{dict}}) 的训练工作流程。我们在附录 B 中证明了最小化 (L_{\text{dict}}) 最大化了 (I(h, y)) 的下界。

与其他对比目标的比较

基于 InfoNCE（Oord et al., 2018）的对比目标因负样本数量的大小而敏感（Khosla et al., 2020；Radford et al., 2021；Chen et al., 2020）。这些对比目标，包括 (L_{\text{feat}})，通常使用批内负样本，并且随着批量大小 (N) 增大而表现出更好的性能（Wang et al., 2020；Lee et al., 2018）。相比之下，(L_{\text{dict}}) 中的负样本数量对应于 (Z – 1)。因此，(L_{\text{dict}}) 的有效性取决于类别数量。实验证明，较高的类别数量 (Z) 相对于使用静态标签嵌入向量的情况下，通常表现更好。然而，即使类别较少，竞争力性能仍能达到。

层级预测

最小化 (L_{\text{dict}}) 最大化了局部特征 (h) 与其对应标签嵌入向量 (t^+) 之间的相似性，同时最小化与非对应标签嵌入向量的相似性。利用 (L_{\text{dict}}) 的这一性质，(D_Z) 可用于推理而无需最终线性分类器 (f_L)。通过选择与特征向量相似性最高的目标标签，可以生成预测结果：

[
\hat{y} = \arg \max_z \langle \bar{h}, t_z \rangle.
]

因此，在每一层都可以进行预测。此外，这允许层级预测的加权和作为全局预测。Belilovsky 等人（2019）和 Zhao 等人（2023）的实验表明，这种方法优于单独由 (f_L) 进行的预测。层级预测的实验结果见附录 C。

实验

实验设置

由于 FL 和 LL 之间存在显著的性能差异，我们进行单独的比较。在 FL 场景中，我们使用静态标签嵌入的静态方法 DCL-S，使用简单的全连接（FC）和卷积（Conv）架构来评估 FL 基准。对于我们的自适应方法 DCL，我们采用 Nøkland 和 Eidnes（2019）使用的 VGG8B 架构。

主要结果

与 FL 方法的比较

我们首先将静态方法 DCL-S 与 BP 和其他 FL 方法进行比较。表 1 和表 2 报告了在 MNIST、CIFAR-10 和 CIFAR-100 数据集上的测试错误率和参数数量。在 MNIST 上，CaFo 是 FL 模型中表现最好的。然而，对于更具现实意义的数据集（如 CIFAR-10 和 CIFAR-100），我们的目标显著优于其他 FL 方法。表 1 显示，尽管我们使用的卷积模型参数更少，但其性能显著优于其他 FL 模型。我们的全连接模型在 CIFAR-10 和 CIFAR-100 上同样优于其他全连接模型，如表 2 所示。此外，我们的方法在所有数据集上始终优于 Lfeat。

Approach	MNIST Params	MNIST Err	CIFAR-10 Params	CIFAR-10 Err	CIFAR-100 Params	CIFAR-100 Err
BP	152K	2.63	153K	22.84	1.43M	46.41
FF	243K	3.21	243K	25.86	2.4M	59.24
PFF	1.8M	1.48	4.1M	32.57	19.2M	65.02
CaFo	152K	11.55	153K	43.67	1.43M	67.69
DRTP	243K	3.21	243K	25.86	2.4M	59.24
SymBa	1.87M	1.29	18.9M	34.73	19.2M	65.94
Lfeat	1.87M	1.46	18.9M	35.12	19.2M	66.48
DCL-S	1.87M	1.46	18.9M	35.12	19.2M	66.48

与 LL 方法的比较

接下来，我们将自适应方法 DCL 与 LL 和 LL-bpf 进行比较。表 3 展示了在各种数据集上的测试错误率。我们的方法在 SVHN 和 STL-10 数据集上优于 BP 基线。对于每个数据集，我们的模型在与使用单一局部损失训练的 LL 模型相比时表现出竞争力。尽管我们的模型总体表现良好，但用两种局部损失函数训练的 LL-predsim 仍然优于我们的方法。然而，在所有数据集中，我们的模型始终优于 LL-predsim 的无 BP 版本 LL-bpf。值得注意的是，LL 的辅助网络显著增加了参数数量，而我们的方法引入了更少的额外参数：(Z \times CD)。表 4 强调了我们的方法在内存效率上优于 LL 和 BP，且比 LL 需要更少的参数。

Loss Type	Method	MNIST	F-MNIST	CIFAR-10	CIFAR-100	SVHN	STL-10
Single Global Loss	BP	0.26	4.53	5.99	26.20	2.29	33.08
Two Local Losses	LL-contrec	*0.65	*5.71	*9.02	*31.35	*2.34	*29.74
	LL-predsim	0.31	4.65	5.58	24.10	1.74	20.51
	LL-bpf	*0.35	*5.68	9.02	*37.60	*2.31	*26.12
Single Local Loss	LL-cont	*0.37	*5.92	*7.72	*31.19	*2.29	*26.83
	LL-pred	0.40	5.66	8.40	29.30	2.12	26.83
	LL-sim	0.65	5.12	7.16	32.60	1.89	23.15
Single Local Loss	DCL	0.33	5.52	8.64	31.75	2.19	22.87

Method	MNIST, F-MNIST Memory	CIFAR-10, SVHN Memory	CIFAR-100 Memory	STL-10 Memory
BP	847 MiB	1086 MiB	1088 MiB	2315 MiB
LL-contrec	811 MiB	1049 MiB	1050 MiB	5954 MiB
LL-predsim	1038 MiB	1291 MiB	1310 MiB	2594 MiB
LL-bpf	708 MiB	895 MiB	897 MiB	1851 MiB
LL-cont	870 MiB	1.43M MiB	890 MiB	1826 MiB
LL-pred	933 MiB	1154 MiB	1156 MiB	2290 MiB
DCL	580 MiB	747 MiB	751 MiB	1589 MiB

进一步分析和讨论

对任务无关信息的鲁棒性

为了重新审视我们在第 4.1 节中讨论的动机，我们分析了我们的目标与 Lfeat 和 Lcontrast 在任务无关信息方面的区别，如图 3 所示。表 1 和表 2 强调了 Ldict 与 Lfeat 之间的性能差距，尤其是在卷积网络中。我们通过任务无关信息的视角解释这些差异。正如我们的假设，图 3 显示了 Lfeat 遇到了干扰问题，即 (I(h, r)) 没有从基线减少。相比之下，Ldict 从第四层开始有效地减少了 (I(h, r))，最终与辅助网络（Lcontrast）实现的 (I(h, r)) 水平相匹配，即使标签嵌入向量是静态的。附录 J.2.7 详细介绍了估计互信息的方法。

自适应嵌入的有效性

图 4 描述了自适应嵌入与静态嵌入在 CIFAR-10 和 CIFAR-100 上的有效性。使用自适应标签嵌入词典 (D_Z) 训练的模型始终优于使用静态标签嵌入向量的模型，无论比较的静态嵌入是随机的（(D_N)）还是正交的（(D_\perp)）。特别是，在 CIFAR-100 上，卷积架构的性能差距比 CIFAR-10 更明显。

解释性与标签嵌入

图 5 展示了在 CIFAR-10 上用 VGG8B 训练的模型中，最后一层预测的前两名标签的显著性图可视化结果。这些显著性图通过标签嵌入向量与单个局部特征向量的点积生成，每个局部特征向量表示图像中的一个区域。对于前一名标签，显著性图与输入图像中与该标签相关的区域清晰对齐。例如，”Horse” 标签的显著性与马的身体精确匹配。

显著性图也能合理解释错误标签的高置信度。图 5 中，”Horse” 图像中与第二名标签 “Deer” 相关的显著性表明模型将马头附近的两棵树误认为是鹿角。这种误解是因为鹿角通常为 “Deer” 标签生成较高的显著性，如 “Deer” 图像中与第一名标签 “Deer” 相关的显著性所示。更多示例见附录 K.3。

自适应嵌入的语义属性

图 6 展示了 CIFAR-100 上自适应标签嵌入向量的语义关系，CIFAR-100 包含 20 个超级标签，每个超级标签包含 5 个子标签。这些向量的聚类突显了它们的语义学习能力，类似于图 5 中与标签特定显著特征的对齐。同一超级标签的嵌入往往聚集在一起，而语义相似但不同超级标签的嵌入也显示出接近。例如，”forest” 更接近 “trees”，而 “chimpanzee” 更接近 “people” 而非其他超级标签组内的嵌入。更多关于超级标签的实验见附录 D。

自适应标签嵌入与混淆率

图 7 捕捉了 CIFAR-10 上混淆率与自适应标签嵌入相似性的关系。对于标签 (y_i) 和 (y_j)，混淆率定义为错误预测 (y_i) 为 (y_j) 的测试错误率的平均值。图 7 显示，随着标签之间混淆率的增加，这些标签的嵌入表示变得更为不同。这表明，当模型难以区分两个标签时，它通过动态调整标签嵌入空间以便更好地分离标签。

平均池化与投影的比较

我们考虑一个全连接层 (f_l^P: R^{CD} \to R^{C_l}) 作为替代 Eq. (2) 中使用的一维平均池化 (pool_l)。线性投影层 (f_l^P) 将 CD 维度标签嵌入向量映射到 (C_l) 维度标签嵌入向量，使得 (f_l^P(t_z) = t_l^z)。表 5 显示，平均池化在性能和内存/参数效率上优于线性投影。

结论

本文发现，传统对比学习目标在没有辅助网络的情况下效率受限，主要原因是任务无关信息的存在。为了解决这一挑战，我们提出了一种新颖的目标 DCL，直接将局部特征与标签特定的嵌入向量对齐。即使没有辅助网络，我们的方法也能有效丢弃任务无关信息，显著优于其他 FL 方法。此外，我们的方法使用自适应标签嵌入向量，达到与 BP 和 LL 相当的性能，同时在参数/内存效率方面优于 LL。我们希望这项工作能为未来研究铺平道路，将 DCL 定位为 BP 的强大替代方案。

参考文献

Liao, Q., Leibo, J.Z., & Poggio, T. (2016). How important is weight symmetry in backpropagation? In AAAI.
Fei, Y., Taniguchi, T., et al. (2022). Emulating human biological and cognitive processes in deep learning.
Nøkland, A., & Eidnes, L.H. (2019). Training neural networks with local error signals.
Belilovsky, E., et al. (2020). Decoupled greedy learning of CNNs.
Pathak, D., et al. (2022). Learning representations by maximizing mutual information across views.
Oord, A., et al. (2018). Representation learning with contrastive predictive coding.

2024 年 6 月 27 日

字典对比学习:一种高效的局部监督方法
深度学习的成功离不开反向传播(BP)算法,但BP也面临两大挑战:计算效率低和生物学上不合理。为了解决这些问题,研究人员提出了局部监督学习,主要包括局部学习(LL)和前向学习(FL)两种方法。

现有方法的局限性

LL通过辅助网络实现了与BP相当的性能,但增加了内存和参数开销。FL则完全摒弃了BP和辅助网络,但性能不如BP。现有的FL方法主要采用对比学习框架,但容易受到与任务无关信息的影响,导致性能下降。

字典对比学习(DCL)方法

为了解决这一问题,研究人员提出了字典对比学习(DCL)方法。DCL的核心思想是优化局部特征与标签嵌入向量之间的相似度,而不是像传统对比学习那样优化特征之间的相似度。

DCL方法包括两个版本:
1. 静态版本(DCL-S):使用固定的标签嵌入向量,适用于FL场景
2. 自适应版本(DCL):使用可更新的标签嵌入向量,性能接近BP和LL
DCL的优势
1. 性能优势:
- 静态版本在FL场景中显著优于现有方法
- 自适应版本接近BP和LL的性能
1. 效率优势:
- 比LL方法使用更少的参数
- 内存效率更高
1. 可解释性:
- 通过标签嵌入向量可以生成显著性图,解释模型决策
1. 语义学习能力:
- 标签嵌入向量能够学习到语义关系
实验结果
1. 在MNIST、CIFAR-10和CIFAR-100数据集上,DCL-S显著优于其他FL方法
2. 在多个数据集上,DCL的性能接近或超过BP和LL方法
3. DCL能够有效降低对任务无关信息的依赖
4. 自适应标签嵌入比静态嵌入效果更好
5. 标签嵌入向量展现出良好的语义学习能力和可解释性
结论

DCL为深度学习提供了一种新的训练范式,在不使用辅助网络的情况下也能有效去除任务无关信息,实现高效的局部监督学习。这项工作为未来发展BP的替代方案开辟了一条有价值的道路。

参考文献:
1. Choi, S. et al. (2024). Dictionary Contrastive Learning for Efficient Local Supervision Without Auxiliary Networks. ICLR 2024.
2024 年 6 月 27 日
Mamba 2: 挑战Transformer的新型序列模型架构
引言

自2017年被提出以来，Transformer已成为AI大模型的主流架构，在语言建模领域长期占据主导地位。然而，随着模型规模不断扩大、需要处理的序列越来越长，Transformer的局限性也日益凸显。其中一个明显的缺陷是：Transformer模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。

几个月前，一种名为Mamba的新型架构的出现打破了这一局面。Mamba能够随上下文长度的增加实现线性扩展，在中小型规模上已经实现了与Transformers匹敌甚至超越的性能。

仅仅六个月后，Mamba的原作者团队再接再厉，推出了更强大的Mamba 2。本文将详细介绍Mamba 2的核心创新点及其相比Transformer的优势。

Mamba 2的核心创新

1. SSD框架：连接SSM和Transformer

Mamba 2的核心贡献是提出了SSD（State Space Duality）框架。这一框架揭示了状态空间模型(SSM)与一类称为半可分矩阵的结构化矩阵族之间的等价性。通过SSD框架，研究者建立了SSM和Transformer之间的理论联系，为理解和改进序列模型开辟了新的方向。

SSD框架的主要内容包括：
- 展示了状态空间模型与半可分矩阵之间的等价性
- 改进了线性注意力理论，推广出新的结构化掩码注意力(SMA)族
- 证明了SSM和SMA有很大的交集，它们是对偶的
- 证明了任何具有快速循环形式的核注意方法都是SSM
2. 高效的SSD算法

基于SSD框架，研究者提出了一种新的高效算法来计算SSM。这种基于半可分离矩阵块分解的SSD算法，利用了SSM的线性递推和二次对偶形式，在各个效率维度上都取得了最优权衡。

与Mamba的实现相比，SSD算法的速度提高了2到8倍。同时，它还允许使用更大的循环状态大小(是Mamba的8倍甚至更高)，而几乎不影响速度。在长序列处理上，SSD算法的优势更加明显 – 在16K长度的序列上，它比优化过的softmax注意力实现(FlashAttention-2)快6倍。

3. 改进的架构设计

Mamba 2在网络架构上也做了一些改进：
- 从顺序生成变为并行生成SSM参数
- 引入分组值注意力(GVA)头结构
- 更适合张量并行等扩展方法
这些改进使得Mamba 2在保持模型表达能力的同时，显著提高了训练效率，特别是能够更好地利用现代加速器上的矩阵乘法单元。

Mamba 2的性能优势

1. 语言建模任务

研究者在Pile数据集上训练了一系列Mamba 2模型，结果显示Mamba 2在标准下游评估中匹配或超过了Mamba和开源的Transformers。

例如，在Pile上训练了3000亿token的2.7B参数Mamba 2模型，其性能超过了:
- 在同一数据集上训练的2.8B参数Mamba模型
- 2.8B参数的Pythia模型
- 6.9B参数的Pythia模型
这一结果表明，Mamba 2不仅能够与同等规模的Transformer模型相匹敌，甚至能够在更小的参数量下超越更大的Transformer模型。

2. 复杂关联回忆任务

研究团队在MQAR(multi-query associative recall)任务上对比了Mamba 2和Mamba 1的性能。MQAR是一种比文献中通常报告的版本更难的任务，要求模型具有更强的长程依赖建模能力。

实验结果显示，Mamba 2明显优于Mamba 1。研究者认为，性能提升的一个重要原因是Mamba 2使用了更大的状态大小(比Mamba 1大约16倍)。这说明Mamba 2在处理需要更大状态容量的任务上有显著优势。

3. 训练效率

Mamba 2在训练效率方面也有明显提升。研究者在与Mamba相同的设置中研究了Mamba 2的Chinchilla扩展法则，发现它在困惑度和实际运行时间方面均优于Mamba和Transformer++。

这意味着，在相同的计算资源下，Mamba 2能够更快地收敛到更好的性能，从而大幅提高模型训练的成本效益比。

Mamba 2的理论意义

Mamba 2不仅在实际性能上有显著提升，其背后的理论创新也具有重要意义：
1. SSD框架提供了状态空间模型、注意力机制和结构化矩阵之间丰富的联系，为未来的序列模型研究开辟了新的方向。
2. 通过建立SSM和Transformer之间的理论联系，Mamba 2为两种不同范式的模型架构搭建了桥梁，有助于研究者更好地理解和改进这两类模型。
3. SSD算法的提出为高效计算SSM提供了新的思路，这一算法不仅适用于Mamba系列模型，也可能被应用到其他基于SSM的模型中。
结论

Mamba 2的出现为序列建模领域带来了新的可能性。它不仅在性能上挑战了长期占据主导地位的Transformer，更重要的是提供了一种新的思路来构建和理解序列模型。

虽然目前Mamba 2主要在中小规模模型上展现出优势，但其线性扩展的特性使它在处理超长序列时具有巨大潜力。随着进一步的研究和优化，Mamba系列模型很可能在更多任务和更大规模上挑战Transformer的地位。

然而，需要注意的是，Transformer模型经过多年发展已经形成了成熟的生态系统。Mamba要真正取代Transformer还需要时间和更多的实践验证。未来，我们可能会看到Transformer和Mamba各自在不同场景下发挥优势，或者两者结合形成新的混合架构。

无论如何，Mamba 2的出现无疑为AI领域注入了新的活力，推动了序列模型的进一步发展。它的成功再次证明，在人工智能领域，创新永不止步。

参考文献
1. Gu, A., Dao, T. et al. (2024). Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv preprint.
2. Zhou, W. et al. (2024). 再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升. 腾讯云开发者社区.
3. Vaswani, A. et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
4. Gu, A., Dao, T. et al. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint.
2024 年 6 月 27 日
自进化智能体：符号学习的力量
引言

人工智能领域正在探索通向通用人工智能(AGI)的道路,其中一个重要方向是开发”语言智能体”。语言智能体是复杂的大型语言模型(LLM)管道,涉及提示技术和工具使用方法。虽然语言智能体在许多现实世界任务中展现了令人印象深刻的能力,但当前语言智能体研究的一个根本局限性在于它们是以模型为中心或以工程为中心的。也就是说,语言智能体的提示、工具和管道的进展需要人类专家而非自动从数据中学习进行大量的手动工程努力。

我们认为,语言智能体从以模型为中心或以工程为中心向以数据为中心的转变,即语言智能体在环境中自主学习和进化的能力,是它们可能实现AGI的关键。

智能体符号学习

为了实现这一目标,本文介绍了智能体符号学习,这是一个系统框架,能够使语言智能体以数据为中心的方式使用符号优化器自我优化。具体而言,我们将智能体视为符号网络,其中可学习的权重由提示、工具以及它们的堆叠方式定义。智能体符号学习旨在通过模仿连接主义学习中的两个基本算法来优化语言智能体中的符号网络:反向传播和梯度下降。与处理数值权重不同,智能体符号学习使用自然语言模拟权重、损失和梯度。

智能体符号学习框架的主要组成部分包括:
1. 智能体管道(Agent Pipeline):类似于神经网络中的计算图,表示智能体处理输入数据的节点(或步骤)序列。
2. 节点(Node):智能体管道中的单个步骤,类似于神经网络中的层。每个节点接收输入,使用LLM、提示和工具进行处理,然后输出结果。
3. 轨迹(Trajectory):存储前向传播过程中的所有信息,包括每个节点的输入、输出、提示和工具使用情况。
4. 语言损失(Language Loss):通过精心设计的提示实现的自然语言损失函数,用于评估智能体的输出结果。
5. 语言梯度(Language Gradient):用于更新智能体中每个组件的文本分析和反思。
智能体符号学习的工作流程如下:
1. 前向传播:执行标准智能体操作,同时将信息存储在轨迹中。
2. 语言损失计算:使用精心设计的提示模板计算语言损失。
3. 语言梯度反向传播:从最后一个节点到第一个节点迭代,计算每个节点的梯度。
4. 基于语言梯度的更新:使用符号优化器更新每个节点中的提示和工具,以及整体智能体管道。
实验结果

为了验证智能体符号学习框架的有效性,我们在标准LLM基准测试和复杂的智能体任务上进行了一系列实验。

标准LLM基准测试结果

在HotpotQA、MATH和HumanEval等标准LLM基准测试上,智能体符号学习框架始终优于所有比较方法。特别是在MATH(一个竞赛级别的基准测试)上,性能提升尤为显著。相比之下,传统的基于LLM的提示优化方法和基于搜索的提示优化方法并不稳定:在某些情况下会带来良好的性能提升,但在其他情况下会导致显著的性能下降。这表明智能体符号学习框架更加稳健,能够更有效地优化语言智能体的整体性能。

复杂任务结果

在软件开发和创意写作这两个复杂任务上,我们的方法显著优于所有比较基线,性能差距比在常规LLM基准测试上更大。有趣的是,我们的方法在创意写作任务上甚至超过了精心设计的思维树(Tree-of-Thought)提示工程和推理算法。我们发现,我们的方法成功地找到了计划、写作和修订的管道,并且每个步骤中的提示都得到了很好的优化。我们还发现,智能体符号学习框架恢复了类似于MetaGPT(一个专门为软件开发设计的智能体框架)中开发的标准操作程序。

案例研究与分析

我们展示了智能体符号学习框架在创意写作任务上的优化动态案例研究。结果表明,我们的方法能够有效地进行提示工程并设计智能体管道,方式类似于人类专家开发语言智能体的方式。

此外,我们发现智能体系统的初始化对最终性能有不可忽视的影响,就像神经网络的初始化对训练很重要一样。总的来说,我们发现以最简单的方式初始化智能体,然后让符号优化器进行优化通常是有帮助的。相比之下,如果初始智能体系统过度工程化,性能往往会变得不稳定。

结论

本文介绍了智能体符号学习,这是一个能够联合优化智能体系统内所有符号组件的智能体学习框架。智能体符号学习框架借鉴了标准连接主义学习程序的灵感来进行符号学习。它使用基于语言的损失、梯度和优化器来优化提示、工具和智能体管道,以提高智能体系统的整体性能。

我们的框架是首次尝试优化能够使用复杂管道解决复杂现实世界任务的智能体。我们的框架使语言智能体能够”从数据中学习”并在创建和部署后在野外进行”自我进化”。我们进行了几个概念验证实验,表明智能体符号学习框架可以有效地优化不同任务复杂度的智能体。

我们相信,从以模型为中心到以数据为中心的智能体研究转变是朝着通用人工智能迈进的一个有意义的步骤。我们开源了智能体符号学习框架的代码和提示,以加速这一转变。

参考文献
1. Zhou, W. et al. (2023). Symbolic Learning Enables Self-Evolving Agents. arXiv preprint arXiv:2406.18532v1.
2. Brown, T. et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
3. Park, J. S. et al. (2023). Generative agents: Interactive simulacra of human behavior. arXiv preprint.
4. Khattab, O. et al. (2023). Dspy: Compiling declarative language model calls into self-improving pipelines. arXiv preprint arXiv:2310.03714.
5. Zhang, S. et al. (2024). Offline training of language model agents with functions as learnable weights. arXiv preprint.
2024 年 6 月 27 日
解锁基础模型的黑盒：CCE 助力概念学习的组合性
人工智能的快速发展催生了强大的基础模型，但其“黑盒”性质也带来了调试、监控和信任方面的挑战。概念解释作为一种新兴方法，试图用人类可理解的概念来解释模型行为，例如将狗的图像嵌入分解成代表其毛皮、鼻子和尾巴的概念向量。

然而，现有的无监督概念提取方法，如 PCA 或 KMeans，虽然能提取基本概念，却无法保证概念的组合性。例如，能识别“白色鸟类”和“小型鸟类”的概念，却无法组合出“小型白色鸟类”。

概念组合性的重要性

概念的组合性对多个 AI 应用至关重要。它可以解释模型预测，编辑模型行为，并训练模型组合基本概念以完成新任务。

本文研究了组合概念的无监督提取，并评估了现有方法的不足。我们发现，来自不同属性的概念（例如颜色和形状）大致正交，而来自相同属性的概念则不正交。这些性质对于概念的组合性至关重要，而现有方法未能强制执行这些性质，导致提取的概念表示往往不可组合。

CCE：一种新的组合概念提取方法

为了解决这个问题，我们提出了组合概念提取 (CCE)。CCE 的关键在于一次性搜索整个概念子空间，而不是单个概念，并强制执行组合概念的正交性。

CCE 采用两步过程：LearnSubspace 和 LearnConcepts。LearnSubspace 优化子空间，使数据在该子空间内根据固定的质心变得很好地聚类。LearnConcepts 则在该子空间内执行球形 K-Means 聚类来识别概念。通过联合学习子空间和聚类质心，CCE 确保了概念之间的正交性，并通过正则化防止过拟合。

实验结果：CCE 的有效性验证

我们在视觉和语言环境中的五个数据集上评估了 CCE，包括 CLEVR、CUB、HAM10000、Truth 和 News。实验结果表明：
- 在受控环境中，CCE 的组合性分数优于所有基线方法，并与真实概念表示的分数相当，表明 CCE 学习到的概念与真实概念高度一致。
- 在真实数据环境中，CCE 能够识别出合理的概念，例如“白色鸟类”、“带框的鸟类”和“以“…’”结尾的文本”，甚至可以发现数据集中未标记的概念，如“手中鸟类”。
- 在下游任务中，随着概念数量的增加，CCE 逐渐获得性能优势，最终优于所有无监督基线方法，甚至超过了直接使用样本嵌入的性能。
结论

CCE 是一种有效的组合概念提取方法，它不仅可以学习组合概念，还可以提高下游性能。我们的研究表明，无需大型数据集或巨大的计算能力即可开发出极具竞争力的多模态对话模型。未来工作将探索更复杂的模态自适应架构，以进一步增强 CCE 的功能。

参考文献

(1) Hello GPT-4o. URL https://openai.com/index/hello-gpt-4o/.
…
Zou et al. (2023b) Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., et al. Representation engineering: A top-down approach to ai transparency. arXiv preprint arXiv:2310.01405, 2023b.
2024 年 6 月 27 日
PrExMe：大规模提示探索用于机器翻译和摘要评估的开源LLM

引言

近年来，大型语言模型（LLMs）的迅速发展为自然语言处理（NLP）领域带来了范式转变。特别是，这些模型的上下文学习能力使其能够作为自然语言生成（NLG）任务的评估指标，从而在低资源场景和时间受限的应用中表现尤为出色。在本文中，我们介绍了PrExMe，一种大规模的提示探索方法，旨在评估超过720种开源LLM提示模板在机器翻译（MT）和摘要数据集上的表现，总共进行了超过6.6百万次评估。这项广泛的比较研究不仅作为最近开源LLM性能的基准，还探讨了不同提示策略的稳定性和变异性。我们发现，虽然在某些场景中提示是稳定的，但在其他场景中，提示和模型排名的稳定性可能会受到看似无害的变化的影响。例如，将请求的输出格式从“0到100”更改为“-1到+1”会显著影响我们的评估排名。我们的研究有助于理解不同提示方法对LLM评估指标性能的影响，突出了最稳定的提示模式及其潜在的局限性。我们公开了代码，供进一步研究使用：https://github.com/Gringham/PrExMe

相关工作

基于提示的评估指标

基于LLM的NLG评估指标的最新进展通常依赖于上下文学习，直接从生成的文本中预测质量判断。Li等人（2024b）和Gao等人（2024a）的调查提供了这些指标的全面概述。然而，许多现有的方法都依赖于封闭源模型。在Eval4NLP 2023共享任务中，研究人员限制了使用选定的开源LLM，并禁止对这些模型进行微调。这些提交中提出了许多有趣的技术，但它们仅探讨了少数几种提示，缺乏对提示模式的全面分析。

提示技术

近年来，许多成功的提示技术被提出（例如，Liu等人，2023a）。我们的工作主要依赖于已建立的方法，如零样本链式推理（Zero-Shot CoT）和检索增强生成（RAG）。此外，Li等人（2023）提出了情感诱导提示，以提高LLM性能。我们首次分析了这种技术在评估指标中的应用。

提示稳定性

我们的工作在广泛的提示、数据集和任务的网格搜索基础上，扩展了LLM对提示扰动的响应研究。Webson和Pavlick（2022）、Leidinger等人（2023）、Weber等人（2023）和Sclar等人（2023）发现自然语言推理和情感分类的性能变化范围很大。为了解决这个问题，Sclar等人（2023）建议提供不同提示扰动下的完整结果范围。我们是首个研究这些稳定性问题对开源LLM评估指标影响的团队，并探索如何选择最佳提示。

实验设置

提示模板

我们的提示是基于层级模板构建的，即一个大模板由多个小模板组成。每个提示由以下部分组成：（1）源文本和要评分的生成假设文本，（2）基础提示，（3）任务描述，（4）格式要求，以及（5）可选的一次性示例。基础提示是我们提示层级的顶层，包含其他组件。

MQM基础方法

除了层级模板，我们还测试了GEMBA-MQM的提示。GEMBA-MQM通常使用GPT-4进行评分，我们称其开源实现为LocalGemba。

分数提取与评估

我们将生成限制为180个标记，并提取作为分数的最后一个正则匹配。当没有找到结果时，我们将其他提示模板的平均分赋给该样本。我们在段落级别评估提示模板，即对于每个指标，我们计算指标分数与人工判断之间的相关性。我们使用肯德尔、皮尔逊和斯皮尔曼相关性作为主要度量，并计算肯德尔相关性结果的显著性测试（p≤0.075）。

模型

我们选择了在Eval4NLP 2023中表现出色的指令调优LLM进行评估，包括Platypus2-70B-GPTQ、Nous-Hermes-13b和OpenOrca-Platypus2-13B等。

数据集和阶段

我们的实验分为两个阶段，使用不同的数据集进行评估。第一阶段在Eval4NLP 2023的训练集上进行评估，第二阶段在开发集和测试集上进行评估。通过这种方式，我们可以评估提示在不同数据集和任务中的泛化性能。

基线

我们还提供了两个基线指标的相关性，包括BARTScore和XComet。

结果

在第一阶段，我们运行了超过665万次零样本提示和71,280次一次性提示。在第二阶段，我们评估了550多万次零样本提示和130多万次一次性提示。表2展示了每个LLM在不同任务和数据集上的肯德尔相关性。

提示模式和模型的最佳表现

我们发现不同模型对提示模式有独特的偏好。例如，Platypus-70B在9个任务中表现最佳，而Tower-13B在3个任务中表现出色。不同模型对提示模式的偏好也不同，例如Orca更喜欢PZS提示，而Tower更适合ZS-CoT和ZS-CoT-EM提示。

提示稳定性

我们量化了提示模式在数据集、模型和其他提示组件变化时的稳定性。结果表明，某些提示模式在不同数据集间具有较高的稳定性，而其他提示模式则表现出显著的变异性。

建议

通过我们的研究，我们为使用开源提示基准指标提供了一些建议。Platypus2-70B在评估任务中表现最佳，对于13B模型，Tower和Orca在MT和摘要任务中表现出色。我们建议使用这些模型中最常见的提示模式作为初始选择，并根据实际需求进行调整。

结论

我们引入了PrExMe，一种大规模提示探索方法，用于提示基准的开源NLG指标。我们评估了720种不同的提示模板和超过6.6百万个提示，并提供了使未来这种类型的指标更加稳健的建议。此外，我们的研究成果为最近的开源LLM在此任务中的应用提供了比较和分析。

以上是对PrExMe研究的详细介绍和分析，希望能为未来的研究提供有价值的参考。

2024 年 6 月 27 日
驾驭语言模型：大型语言模型应用的生产实践挑战与展望
导语： 近年来，大型语言模型（LLM）在人工智能领域掀起了一场革命，其强大的文本生成和理解能力为众多应用场景带来了新的可能性。然而，将LLM应用从酷炫的演示转化为可实际部署的生产系统并非易事。本文将深入探讨LLM应用生产实践所面临的挑战，并结合实例分析解决方案，最后展望LLM应用的未来发展方向。

一、生产环境下LLM应用面临的挑战

1. 自然语言的模糊性

不同于精确的编程语言，自然语言本身就带有模糊性。这种模糊性在LLM应用中主要体现在用户指令和模型输出两个方面。

首先，用户指令的灵活性可能导致难以察觉的错误。例如，对代码进行微小的修改，例如添加字符或删除一行，通常会导致明显的错误提示。但如果对LLM的指令进行类似的修改，程序仍然可以运行，但输出结果可能大相径庭。

其次，LLM输出结果的模糊性是更大的挑战。这会导致两个问题：
- 输出格式不一致： LLM的后续应用通常需要解析特定格式的输出结果。虽然我们可以通过精心设计的指令来明确输出格式，但这并不能保证模型始终遵循预期的格式。
- 用户体验不一致： 用户期望应用程序具有一致性。例如，我们不希望每次查询保险报价时都得到不同的结果。然而，LLM本身具有随机性，无法保证相同的输入每次都能得到相同的输出。
为了解决这个问题，OpenAI等机构正在积极探索提高模型可靠性的方法。一些经验丰富的LLM开发者建议，我们需要适应这种模糊性，并围绕它构建工作流程。此外，通过尽可能提高工程严谨性，例如采用本文接下来讨论的各种方法，可以有效缓解LLM应用中的模糊性问题。

2. Prompt工程的挑战

Prompt工程是指设计和优化LLM输入指令的过程，其目标是引导模型生成符合预期的输出。
- Prompt评估：
  - 评估LLM是否理解Prompt中给出的示例。例如，在情感分析任务中，可以输入一些带有情感标签的文本，观察模型是否能输出正确的情感得分。
  - 评估LLM是否对Prompt中的示例过拟合。可以通过使用独立的测试集来评估模型的泛化能力。
- Prompt版本控制：
  Prompt的微小变化可能会导致输出结果的显著差异。因此，对Prompt进行版本控制和性能跟踪至关重要。可以使用Git等工具来管理Prompt的不同版本及其性能指标。
- Prompt优化：
  - 使用“思维链”（Chain-of-Thought，COT）技术，引导模型解释其推理过程，从而提高输出结果的可解释性和准确性。
  - 生成多个输出结果，并选择最佳结果作为最终输出。例如，可以使用多数投票法或让LLM自身选择最佳结果。
  - 将复杂的Prompt分解成多个更小、更简单的Prompt，可以降低模型理解和推理的难度。
3. 成本和延迟
- 成本：
  OpenAI等API服务提供商通常根据输入和输出token的数量收费。更长的Prompt和输出意味着更高的成本。
- 延迟：
  输出token的生成是顺序进行的，因此输出长度会显著影响延迟。此外，网络延迟和工程开销也会影响LLM应用的整体延迟。
4. Prompting、微调和替代方案
- Prompting： 为每个样本提供明确的指令，告诉模型如何响应。
- 微调： 在特定任务的数据集上训练模型，使其学习如何响应，而无需在Prompt中明确说明。
选择Prompting还是微调取决于数据可用性、性能要求和成本限制。
- 数据量少： Prompting更易于上手，但Prompt的长度有限，无法包含大量示例。
- 数据量大： 微调可以利用更多数据，并获得更好的性能。
5. 其他挑战
- 嵌入和向量数据库： 使用LLM生成文本嵌入，并将其存储在向量数据库中，可以高效地进行语义搜索和推荐。
- 向后和向前兼容性： LLM模型会不断更新迭代，因此需要确保Prompt和应用逻辑的兼容性。
二、任务组合能力

实际应用中，LLM应用通常需要执行多个任务，并按照一定的控制流程进行组合。

1. 多任务应用

例如，“与数据对话”应用需要执行以下任务：
1. 将用户的自然语言输入转换为SQL查询（LLM）。
2. 在数据库中执行SQL查询（SQL执行器）。
3. 将SQL结果转换为自然语言响应（LLM）。
2. 代理、工具和控制流程
- 代理：
  能够根据给定的控制流程执行多个任务的应用程序。
- 工具：
  代理可以利用的外部程序或服务，例如搜索引擎、数据库、计算器等。
- 控制流程：
  定义任务执行顺序和条件的逻辑，例如顺序执行、并行执行、条件分支、循环等。
3. 使用LLM代理进行控制流程

可以使用LLM来决定控制流程的条件。例如，可以训练LLM根据用户输入选择不同的工具或执行不同的任务。

4. 代理测试

为了确保代理的可靠性，需要对每个任务以及整个控制流程进行测试。

三、LLM应用的未来发展方向
- AI助手：
  能够帮助用户完成各种任务的智能助手，例如日程安排、笔记记录、编程辅助等。
- 聊天机器人：
  能够与用户进行自然对话的智能程序，例如虚拟伴侣、游戏角色等。
- 编程和游戏：
  LLM可以用于代码生成、代码调试、游戏开发等领域。
- 学习：
  LLM可以用于自动生成测验、评估学生答案、提供学习建议等教育场景。
- 与数据对话：
  LLM可以帮助用户使用自然语言查询和分析数据。
- 搜索和推荐：
  LLM可以改善搜索结果的相关性和推荐系统的个性化程度。
- 销售：
  LLM可以用于自动生成销售邮件、分析客户信息等。
- SEO：
  LLM可以用于生成SEO优化内容，但同时也带来了新的挑战，例如如何区分人工编写和机器生成的内容。
结语

LLM应用仍处于早期发展阶段，技术和应用场景都在快速迭代。Prompt工程、成本控制、延迟优化、任务组合等方面都面临着挑战。然而，LLM也为AI助手、聊天机器人、编程、教育、数据分析、搜索推荐等领域带来了前所未有的机遇。相信随着技术的进步和应用的深入，LLM将为我们带来更加智能和便捷的未来。

参考文献
- Huyen, C. (2023). Building LLM applications for production. Retrieved from https://huyenchip.com/2023/04/11/llm-engineering.html
2024 年 6 月 27 日
“毕昇”开源：为大模型应用开发按下“加速键”
近年来，大型语言模型（LLM）的迅速发展彻底改变了人工智能领域，为智能应用的开发带来了前所未有的机遇。然而，将这些强大的模型转化为实际应用并非易事，开发者需要克服诸多挑战，例如高昂的开发成本、复杂的模型部署流程以及对专业知识的依赖等。在此背景下，一款名为“毕昇”（Bisheng）的开源大模型应用开发平台应运而生，旨在为广大开发者提供便捷、灵活、可靠的工具，助力他们快速构建和部署基于大模型的智能应用。

“毕昇”是什么？

“毕昇”是一款由 DataElem Inc. 公司开发的开源大模型应用开发平台，其名称源于中国古代活字印刷术的发明人——毕昇。活字印刷术的发明极大地促进了人类知识的传播，而“毕昇”平台也承载着同样的愿景，即推动智能应用的广泛落地，让更多人能够从大模型技术中受益。

“毕昇”平台致力于解决当前大模型应用开发面临的痛点，为开发者提供以下核心功能：
- 可视化应用编排： “毕昇”提供直观易用的可视化界面，即使不具备深厚技术背景的业务人员也能轻松构建大模型应用。
- 丰富的组件库： 平台内置数百种预置组件，涵盖了大模型应用开发的各个方面，例如数据处理、模型调用、结果展示等，开发者可以像搭积木一样快速组装应用。
- 灵活的流程编排： “毕昇”支持自由的流程编排，开发者可以根据实际需求灵活组合不同组件，构建复杂的大模型应用。
- 企业级特性： 与其他主要面向实验测试场景的开源项目不同，“毕昇”平台提供了高可用、持续优化、实用功能等企业级特性，能够满足真实业务场景的需求。
- 非结构化数据治理： “毕昇”平台集成了 DataElem Inc. 公司在非结构化数据治理领域积累的丰富经验，为开发者提供了强大的数据处理能力，能够有效应对企业内部数据质量参差不齐的挑战。
“毕昇”能做什么？

“毕昇”平台的应用场景十分广泛，可以用于构建各类基于大模型的智能应用，例如：
- 分析报告生成： 合同审核报告、信贷调查报告、招股书分析报告、智能投资顾问报告、文档摘要等。
- 知识库问答： 用户手册问答、研报知识库问答、规章制度问答、《中华药典》知识问答、股价数据库问答等。
- 对话： 扮演面试官对话、小红书文案助手、扮演外教对话、简历优化助手等。
- 要素提取： 合同关键要素提取、工程报告要素提取、通用元数据提取、卡证票据要素提取等。
除了上述应用场景外，“毕昇”平台还将持续拓展更多应用形态的支持，例如流程自动化、搜索等，以满足不断变化的市场需求。

如何使用“毕昇”？

“毕昇”平台的安装和使用非常简单，开发者可以参考官方文档快速上手：
- 安装 Bisheng
- 编译Bisheng
“毕昇”平台的开源，为大模型应用的开发和落地提供了强大的助力，将进一步推动人工智能技术的普及和应用，为各行各业带来新的发展机遇。

参考文献

[1] Bisheng Github Repository. https://github.com/dataelement/bisheng/raw/main/README.md
2024 年 6 月 25 日
LangChain：ChatGPT插件会干掉这位“Model as a Service”粘合剂吗？
引言：AI 应用开发的新手村

LangChain，一个在2022年10月底横空出世的开源 Python 库，凭借其对大量 LLM 应用开发逻辑和工具的封装，迅速成为了 AI 应用开发领域的热门话题。它就像一位新手村的导师，为初入 AI 应用开发领域的开发者们指明了方向。

01 构建 AI 应用的挑战：不止于调用模型 API

仅仅调用 LLM 的 API 并不能满足构建真正实用 AI 应用的需求。现阶段的 LLM 模型存在两大局限：
1. 缺乏与外部世界的交互能力: 无法搜索网页、调用 API 或查询数据库。
2. “记忆”有限且不完美: 训练数据截止日期限制和缺乏私有数据，导致模型无法获取最新信息，甚至可能给出与事实相悖的答案。
02 LangChain 的解决方案：为 LLM 插上“手臂”、注入“上下文”

LangChain 的出现为解决上述问题提供了有效方案，它通过以下方式增强了 LLM 的能力：
- 注入“上下文”: 利用 Map Reduce 思想，将长文本切片、使用 Embedding 引擎和向量数据库，突破 token 数量限制，为模型提供更丰富的背景信息。
- 赋予“行动能力”: 集成搜索引擎、数据库、API 等外部工具，让 LLM 能够与外部世界交互，执行更复杂的任务。
以构建 300 页书籍问答机器人为例：
1. 将书籍切分为多个文本块，并利用 Embedding 引擎将其转换为向量。
2. 将向量存储在向量数据库（例如 Pinecone）中。
3. 当用户提问时，将问题转换为向量，并在向量数据库中搜索语义最接近的文本块作为答案。
LangChain 在这一过程中提供了完整的工具集成和逻辑封装，大大简化了开发流程。

03 LangChain 的核心身份：LLM 的增强器和粘合剂

LangChain 扮演着多重角色，其中最重要的是：
- 让 LLM 拥有上下文和行动能力的首选工具: 通过 Chain、Agent、Memory 等模块，为 LLM 提供了与外部世界交互、获取信息和执行复杂任务的能力。
- 所有 LLM Ops 工具的粘合剂: LangChain 集成了各种 LLM、Embedding 引擎、向量数据库等工具，并提供统一的接口，方便开发者灵活选择和组合使用。
- 快速崛起的开源社区: LangChain 拥有庞大且活跃的开源社区，不断贡献新的功能和集成，推动着 LLM 应用开发的发展。
04 面临的挑战：Prompt Ops 的质疑和商业化困境

尽管 LangChain 发展迅速，但也面临着一些挑战：
- 商业化困境: 作为一个开源项目，LangChain 的商业模式尚不明确，难以吸引大型企业付费使用。
- Prompt Ops 的局限性: 过度依赖 Prompt Engineering，可能导致应用逻辑过于复杂，难以维护和扩展。
05 竞争格局：以和为贵，各展神通

LangChain 的竞争对手主要包括 GPT-Index、Microsoft Semantic Kernel、Dust 等。这些工具各有优劣，LangChain 凭借其灵活性和强大的功能，在开发者群体中保持着领先地位。

06 未来展望：Harrison 的雄心壮志

LangChain 创始人 Harrison Chase 并不满足于仅仅做一个开源项目，他希望构建更强大的开发者工具，推动 AI 应用开发的普及。

结语：

LangChain 作为 LLM 应用开发领域的先驱者，为开发者们提供了一套强大的工具和框架。尽管面临着一些挑战，但 LangChain 的未来依然充满希望。

参考文献:
2024 年 6 月 25 日
RLHF 家族的奇巧魔改：On Policy 与 Off Policy 路线大PK
随着 [Llama3] 的开源，Alignment 的重要性日益凸显，而作为 Alignment 中坚力量的 RLHF 家族也愈发繁荣。今天，我们就来一起探索一下 RLHF 领域中那些令人拍案叫绝的魔改思路吧！

On Policy vs. Off Policy：究竟谁更胜一筹？

在 LLM 领域，RLHF 主要分为两大路线：
- On Policy 路线: 以 [PPO] 为代表，需要 LLM 在训练过程中实时生成文本。
- Off Policy 路线: 以 [DPO] 为代表，不需要 LLM 在训练过程中实时生成文本，而是利用已有的数据进行学习。
On Policy 方法通常需要更大的算力支持，训练时间也更长，但理论上具有更高的效果上限。

On Policy：让模型亲自上阵

On Policy 方法强调让模型在训练过程中“亲力亲为”，根据自身生成结果的好坏来学习改进。

举个例子，想象一下你正在学习玩王者荣耀：
- On Policy: 你亲自上阵，旁边有一位教练实时指导你的操作，当你成功推塔时给予鼓励，当你失误被杀时及时提醒。
- Off Policy: 你观看大量职业选手和青铜玩家的对局视频，学习前者的优秀操作，避免后者的低级失误。
On Policy 方法的优势在于训练数据与模型能力完全匹配，因为所有数据都是由当前模型生成的。

Off Policy：站在巨人的肩膀上学习

Off Policy 方法则侧重于利用已有数据进行学习，模型不需要亲自生成答案，因此训练速度更快，对算力要求更低。

然而，Off Policy 方法的效果很大程度上取决于训练数据的质量和与模型能力的匹配程度。如果数据质量不高，或者与模型能力相差太远，那么训练效果就会大打折扣。

1. On Policy 路线：PPO 及其优化

1.1 ReMax：丢掉 Critic，轻装上阵

[ReMax] 提出了一种大胆的想法：丢弃 PPO 中的 Critic 网络，让 Actor 直接与 Reward Model 对齐。

这样做的好处显而易见：
- 减少模型参数: 从 4 个模型减少到 3 个，参数量大幅降低。
- 加速训练: 不再需要更新 Critic 网络，反向传播速度更快。
ReMax 的核心在于使用“当前策略”认为最好的行为来作为 baseline，从而在没有 Critic 的情况下降低方差，稳定训练。

1.2 GRPO：暴力求均值，效果依旧惊艳

[DeepSpeek-v2] 中提出的 [GRPO] 算法则采取了另一种思路：保留 PPO 中 importance sampling 和 clip 等先进机制，但使用暴力采样求均值的方式来代替 Critic 网络。

GRPO 的优势在于：
- 简化模型结构: 无需 Critic 网络，降低了模型复杂度。
- 保留 PPO 优势: 保留了 PPO 中的优秀机制，保证了训练效果。
1.3 其他 On Policy 优化方向

除了 ReMax 和 GRPO 之外，研究人员还探索了其他优化 PPO 算法的方向，例如：
- 分布式 PPO: 将训练任务分配到多个 GPU 或 TPU 上，加快训练速度。
- 基于 Transformer 的 PPO: 利用 Transformer 模型强大的表征能力，提升策略网络的性能。
2. Off Policy 路线：DPO 及其改进

2.1 DPO：最大化概率差，简单高效

[DPO] 算法的思路非常直观：对于同一个 prompt，通过降低“坏答案”的采样概率，提升“好答案”的采样概率，从而训练模型。

DPO 的优势在于：
- 训练高效: 无需模型生成文本，训练速度快。
- 数据利用率高: 可以充分利用已有的 pair 数据。
2.2 DPOP：添加正则项，防止模型“训崩”

DPO 算法存在一个问题：在某些情况下，”好答案” 和 “坏答案” 的采样概率会同时降低，导致模型效果不佳。

为了解决这个问题，[DPOP] 算法在 DPO loss 的基础上加入了一个正则项，旨在：
- 当模型对 “好答案” 拟合不足时，鼓励模型更多地学习 “好答案”。
- 当模型对 “好答案” 拟合较好时，着重降低 “坏答案” 的采样概率。
2.3 TDPO：引入 KL 惩罚，平衡效率与多样性

与 PPO 类似，[TDPO] 算法也在 DPO 的 loss 函数中引入了 KL 惩罚项，用于限制模型更新幅度，防止过拟合。

与 PPO 不同的是，TDPO 使用的是 forward KL，而不是 backward KL。这样做的好处是：
- 输出多样性更高: forward KL 鼓励模型覆盖更广泛的概率分布，从而生成更多样化的文本。
2.4 ORPO：抛弃参考模型，化繁为简

[ORPO] 算法则更进一步，试图连 reference model 也一并省去。

ORPO 的 loss 函数由两部分组成：
- SFT Loss: 保证模型对 chosen response 的基本拟合。
- Odds Ratio Loss: 通过最大化“好答案”与“坏答案”的 odds 值之比，来提升模型对“好答案”的偏好。
结语

无论是 On Policy 还是 Off Policy，RLHF 家族的“魔改”之路都充满了奇思妙想。相信随着研究的深入，RLHF 技术将会在 Alignment 领域发挥越来越重要的作用。
2024 年 6 月 23 日
PowerInfer-2: Unlocking High-Speed Large Language Model Inference on Smartphones
In the rapidly evolving landscape of artificial intelligence, Large Language Models (LLMs) have become indispensable tools, offering unparalleled capabilities in understanding and generating human-like text. Traditionally, these models have been deployed in data centers equipped with powerful GPUs, but there’s a growing trend to bring these capabilities to more ubiquitous devices like smartphones. This shift aims to leverage rich personal data while maintaining privacy by keeping computations local. However, deploying LLMs on smartphones presents significant challenges due to their limited processing power and memory. Enter PowerInfer-2, a groundbreaking framework from the Institute of Parallel and Distributed Systems (IPADS) at Shanghai Jiao Tong University, designed to tackle these challenges head-on.

Introduction to PowerInfer-2

PowerInfer-2 is an innovative framework specifically engineered for high-speed inference of LLMs on smartphones, even for models whose sizes exceed the device’s memory capacity. The key to PowerInfer-2’s success lies in its ability to utilize the heterogeneous computation, memory, and I/O resources available in modern smartphones. By decomposing traditional matrix computations into fine-grained neuron cluster computations, PowerInfer-2 significantly enhances inference speed and efficiency.

Key Features of PowerInfer-2
1. Polymorphic Neuron Engine: Adapts computational strategies for various stages of LLM inference.
2. Segmented Neuron Caching: Minimizes and conceals I/O overhead.
3. Fine-Grained Neuron-Cluster-Level Pipelining: Reduces computational delays caused by I/O operations.
4. Support for Large Models: Capable of running models with up to 47 billion parameters.
Technical Insights

Heterogeneous Computation Utilization

PowerInfer-2 leverages the heterogeneous hardware present in smartphones, such as asymmetric big.LITTLE CPU cores, GPUs, and NPUs. This approach allows the framework to dynamically adapt to the strengths of each component during the different stages of LLM inference.

Prefill Stage

During the prefill stage, which processes all tokens in the input sequence concurrently, PowerInfer-2 employs the NPU to handle large matrix computations. This stage benefits from the NPU’s efficiency in processing dense computations, significantly speeding up the generation of the first token.

Decoding Stage

In the decoding stage, where tokens are generated sequentially, PowerInfer-2 utilizes small neuron clusters and CPU cores to handle the sparse computations. This method leverages the flexibility of CPU cores, which are well-suited for the lighter computational tasks associated with sparse activations.

Neuron Caching and Pipelining

PowerInfer-2 introduces a segmented cache that operates at the neuron granularity level. This cache is designed to enhance the cache hit rate and reduce the impact of I/O overhead on inference performance. By overlapping I/O operations with neuron cluster computations, the framework minimizes waiting times and maximizes throughput.

Offline Planner

Before running a new model on a smartphone, PowerInfer-2 executes an offline planning phase. This phase analyzes the model and hardware specifications to generate an execution plan that optimally configures computation, memory, and I/O resources. This plan ensures that inference is performed efficiently, even for models that do not fit entirely in memory.

Implementation and Evaluation

PowerInfer-2 has been implemented with an additional 12,000 lines of code on top of the original PowerInfer framework. The researchers deployed it on two smartphones: OnePlus 12 and Ace 2, equipped with Qualcomm XPUs and 24GB and 16GB of DRAM, respectively.

Supported Models

PowerInfer-2 supports a diverse array of LLMs, including:
- Llama-2 (7B, 13B)
- TurboSparse-Mistral (7B)
- TurboSparse-Mixtral (47B)
Performance

The evaluation of PowerInfer-2 shows impressive results:
- Speed: Up to 29.2× speed increase compared to state-of-the-art frameworks.
- Memory Efficiency: Approximately 40% reduction in memory usage for smaller models while maintaining comparable inference speeds.
Notably, PowerInfer-2 is the first system to support the TurboSparse-Mixtral-47B model on mobile platforms, achieving a generation speed of 11.68 tokens per second.

Real-World Applications

To demonstrate its practical utility, PowerInfer-2 was tested on various real-world tasks such as multi-turn dialogue, code generation, math problem solving, and role play. The framework consistently delivered high performance across these diverse tasks, showcasing its robustness and versatility.

Conclusion

PowerInfer-2 represents a significant advancement in the deployment of LLMs on smartphones. By harnessing the heterogeneous resources of modern smartphones and optimizing computation, memory, and I/O operations, PowerInfer-2 enables high-speed, efficient inference for even the largest models. This innovation opens up new possibilities for privacy-preserving, intelligent personal assistants and other applications that require powerful language understanding and generation capabilities on mobile devices.

For more details and a demonstration video, visit the PowerInfer-2 project site.
2024 年 6 月 22 日
Mamba：线性时间序列建模，超越Transformer的效率与性能
近年来，深度学习领域涌现出许多令人惊叹的应用，而这些应用背后的核心力量往往是基于Transformer架构及其核心注意力机制的“基础模型”。为了解决Transformer在处理长序列时计算效率低下的问题，许多次二次时间复杂度的架构被开发出来，例如线性注意力、门控卷积、循环模型和结构化状态空间模型（SSMs）。然而，这些模型在语言等重要模态上的表现却不如注意力机制出色。

本文将深入探讨这些模型的局限性，并提出一种全新的选择性状态空间模型，它在多个方面超越了先前工作，在保持线性时间复杂度的同时，实现了与Transformer相当的建模能力。

Transformer的局限性：效率与效果的权衡

Transformer凭借其强大的自注意力机制，能够在上下文窗口内密集地传递信息，从而对复杂数据进行建模。然而，这种机制也带来了两个关键问题：
1. 有限的上下文窗口: Transformer无法处理超过窗口大小的任何信息。
2. 二次复杂度: 随着窗口大小的增加，Transformer的计算量呈平方增长。
为了克服这些问题，研究人员一直在探索更有效的注意力机制变体，但往往以牺牲注意力机制的有效性为代价。至今，还没有一种变体能够在多个领域中展现出大规模的有效性。

结构化状态空间模型（SSMs）：线性时间复杂度的希望

近年来，结构化状态空间序列模型（SSMs）作为一种很有潜力的序列建模架构，逐渐崭露头角。这些模型可以被看作是循环神经网络（RNNs）和卷积神经网络（CNNs）的结合，并受到了经典状态空间模型（Kalman 1960）的启发。SSMs可以高效地以循环或卷积的形式进行计算，其时间复杂度和空间复杂度都与序列长度呈线性或近线性关系。此外，它们还拥有建模某些数据模态中长程依赖关系的机制，并在Long Range Arena（Tay, Dehghani, Abnar, et al. 2021）等基准测试中取得了领先地位。

然而，SSMs在建模离散和信息密集型数据（如文本）方面表现不佳。

选择性状态空间模型：突破SSMs的局限

本文提出的选择性状态空间模型，通过以下几个方面的改进，克服了先前工作的局限性，实现了与Transformer相当的建模能力，并保持了线性时间复杂度：

选择机制：基于内容的推理

先前模型的一个关键局限性在于它们无法以输入依赖的方式高效地选择数据（例如，关注或忽略特定输入）。受选择性复制和归纳头等重要合成任务的启发，本文设计了一种简单的选择机制，通过将SSM参数设置为输入的函数，从而使模型能够根据当前标记有选择地传播或遗忘信息。

硬件感知算法：高效的并行计算

这种简单的改变为模型的计算带来了技术挑战，因为先前所有的SSM模型都必须是时间和输入不变的，才能保证计算效率。本文通过一种硬件感知算法克服了这一挑战，该算法以扫描而不是卷积的方式递归地计算模型，但不会将扩展后的状态具体化，从而避免了GPU内存层次结构不同级别之间的IO访问。这种实现方法在理论上比以前的方法更快（时间复杂度为线性，而所有基于卷积的SSMs的时间复杂度为伪线性），并且在现代硬件上也更快（在A100 GPU上快3倍）。

Mamba架构：简洁而强大的模型设计

本文将先前SSM架构（Dao, Fu, Saab, et al. 2023）的设计与Transformer的MLP块结合，形成一个简单的同质架构设计（Mamba），该架构包含选择性状态空间。

Mamba作为一种通用的序列模型主干，具有以下特点：
- 高性能: 选择机制在语言和基因组等密集模态上带来了强大的性能。
- 快速训练和推理: 训练过程中的计算量和内存使用量与序列长度呈线性关系，而推理过程中的自回归展开仅需要每个步骤恒定的时间，因为不需要缓存先前元素。
- 长上下文: 性能和效率的结合，使模型能够在长达百万个标记的真实数据上取得性能提升。
Mamba的实验验证：超越Transformer的性能

本文通过一系列实验验证了Mamba作为通用序列基础模型主干的潜力，包括在预训练质量和特定领域任务性能方面的评估。

合成任务：选择性复制和归纳头

在选择性复制任务中，Mamba展现出强大的内容感知推理能力，能够有效地记住相关标记，并忽略无关标记。在归纳头任务中，Mamba能够完美地解决该任务，并将其解决方案扩展到百万个标记的序列长度，而其他方法只能扩展到训练序列长度的两倍。

语言建模：与Transformer相当的性能

在语言建模方面，Mamba是第一个真正实现Transformer级性能的线性时间序列模型，无论是在预训练困惑度还是在零样本评估方面。在高达10亿个参数的规模下，Mamba的性能超越了各种基线，包括基于LLaMa（Touvron et al. 2023）的现代Transformer训练方案。Mamba语言模型的生成吞吐量是同等规模Transformer的5倍，Mamba-3B的质量与Transformer的两倍规模（例如，Pythia-7B）相当，甚至在常识推理方面超过了Pythia-7B。

DNA建模：高效的基因组分析

在基因组分析方面，Mamba在DNA序列预训练和微调方面都超越了先前最先进的模型，例如SaShiMi、Hyen和Transformer。在预训练质量和下游指标（例如，将具有挑战性的语音生成数据集上的FID降低一半以上）方面，Mamba都取得了优异的成绩。在两种情况下，Mamba的性能都随着上下文长度的增加而提升，直至百万个标记的序列长度。

音频建模：高质量的语音生成

在音频建模方面，Mamba在自回归音频建模方面超越了先前最先进的模型（SaShiMi），并能够处理长达分钟的上下文或百万个标记的序列（控制计算量）。在SC09语音生成数据集上，Mamba模型在保真度指标方面显著优于现有模型，包括WaveNet、SampleRNN、WaveGAN、DiffWave和SaShiMi。

Mamba的效率：超越Transformer的计算速度

Mamba在训练和推理方面都展现出优异的效率。在训练方面，Mamba的效率扫描比PyTorch中的标准扫描实现快20-40倍。在推理方面，Mamba的推理吞吐量是同等规模Transformer的4-5倍，因为Mamba不需要KV缓存，因此可以采用更高的批次大小。

Mamba的未来展望：更强大的基础模型

本文提出的选择性状态空间模型为构建不同领域的基础模型开辟了新的可能性，尤其是在需要长上下文的领域，例如基因组学、音频和视频。Mamba有望成为一种通用的序列模型主干，为未来的深度学习研究带来新的突破。

参考文献
- Brown, Tom, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. “Language Models Are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020.
- Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. “Attention Is All You Need.” In Advances in Neural Information Processing Systems, 5998–6008, 2017.
- Gu, Albert, Karan Goel, and Christopher Ré. “Efficiently Modeling Long Sequences with Structured State Spaces.” In International Conference on Learning Representations, 2022.
- Dao, Tri, Daniel Y Fu, Andrew M Saab, et al. “H3: A Unified Architecture for Long Sequence Modeling.” In International Conference on Learning Representations, 2023.
- Poli, Luca, Thomas Scialom, Guillaume Lample, et al. “Hyena: A Hybrid Convolutional Architecture for Long Sequence Modeling.” In International Conference on Learning Representations, 2023.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是深度学习中基础模型（Foundation Models, FMs）在处理长序列数据时的计算效率问题。基础模型通常基于Transformer架构，尽管它们在多种领域（如语言、图像、语音、音频、时间序列和基因组学）的应用中表现出色，但它们的计算复杂度随着序列长度的增加而呈二次方增长，这限制了它们在处理长序列数据时的应用。为了克服这一挑战，论文提出了一种新的序列建模方法，称为选择性状态空间模型（Selective State Space Models, SSMs），并将其集成到一个简化的神经网络架构中，称为Mamba。Mamba旨在实现线性时间复杂度的序列建模，同时保持或超越Transformer模型在多种模态（如语言、音频和基因组学）上的性能。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与选择性状态空间模型（Selective State Space Models, SSMs）和Mamba架构相关的研究。以下是一些关键的相关研究：
1. Transformer架构：这是由Vaswani等人在2017年提出的，它的核心是自注意力机制，能够处理长距离依赖关系，但计算复杂度随序列长度的增加而增加。
2. 结构化状态空间序列模型（Structured State Space Models, SSMs）：这些模型是RNN和CNN的结合，能够高效地处理序列数据，具有线性或近线性的序列长度缩放特性。Gu, Goel, and Ré (2022) 和 Gu, Johnson, Goel, et al. (2021) 在这方面的工作为Mamba架构提供了理论基础。
3. 线性注意力（Linear Attention）：Katharopoulos等人在2020年提出了一种近似自注意力的方法，通过递归来实现，这为后续的SSM研究提供了灵感。
4. H3架构：Dao, Fu, Saab等人在2023年提出了这种架构，它结合了线性注意力和SSM，通过门控连接来增强模型的性能。
5. Hyena模型：Poli等人在2023年提出了这种模型，它使用全局卷积来近似SSM，并且在某些连续信号数据领域（如音频和视觉）取得了成功。
6. RetNet：Sun等人在2023年提出了这种模型，它通过引入额外的门控来优化SSM的并行计算路径。
7. RWKV（Reinventing RNNs for the Transformer Era）：Peng等人在2023年提出了这种模型，它基于线性注意力近似，旨在为语言建模设计高效的RNN。
8. S5模型：Smith, Warrington, and Linderman在2023年提出了这种模型，它通过简化SSM架构来提高计算效率。
这些研究为Mamba架构的发展提供了理论基础和实践经验，特别是在处理长序列数据和提高计算效率方面。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键创新来解决长序列数据处理中的计算效率问题：
1. 选择性状态空间模型（Selective State Space Models, SSMs）：论文提出了一种新的SSM，它通过允许模型参数（如状态转移矩阵A、输入门B和输出门C）依赖于输入数据，从而实现对信息的选择性传播或遗忘。这种机制使得模型能够根据当前输入动态地调整其状态，有效地过滤掉不相关的信息。
2. 硬件感知的并行算法：尽管选择性SSMs的设计破坏了模型的线性时间不变性（LTI），但论文设计了一种硬件感知的并行算法，通过在GPU内存层次结构中更高效地扩展状态来计算模型。这种算法通过在快速SRAM中执行离散化和递归操作，然后仅将最终输出写回HBM，从而减少了内存访问次数，提高了计算效率。
3. 简化的神经网络架构（Mamba）：论文提出了一个简化的端到端神经网络架构，该架构不包含注意力或多层感知器（MLP）块，而是将SSMs直接集成到网络中。这种架构通过合并H3架构中的线性注意力和MLP块，形成了一个简单且同质的架构设计。
4. 跨模态性能验证：论文在多种模态（如语言、音频和基因组学）上验证了Mamba架构的有效性。在语言建模任务中，Mamba-3B模型在预训练和下游评估中的表现超过了相同大小的Transformer模型，并与两倍大小的Transformer模型相匹配。
通过这些创新，论文展示了Mamba架构在处理长序列数据时的高效性和优越性能，特别是在保持或提高模型性能的同时，实现了线性时间复杂度的序列建模。

Q: 论文做了哪些实验？

A: 论文进行了一系列的实验来验证Mamba架构的有效性，这些实验涵盖了不同的数据模态和任务。以下是主要的实验内容：
1. 合成任务：
  - 选择性复制（Selective Copying）：测试模型在处理随机间隔的输入序列时的记忆能力，这要求模型能够记住相关输入并忽略不相关的“噪声”输入。
  - 归纳头（Induction Heads）：评估模型在关联记忆任务中的表现，这要求模型能够在给定上下文的情况下正确地预测输出。
2. 语言建模：
  - 预训练质量（Scaling Laws）：在Pile数据集上，比较Mamba与其他架构（如Transformer、Transformer++、H3等）在不同模型大小和序列长度下的困惑度（Perplexity）。
  - 零样本下游评估（Zero-shot Evaluations）：在多个下游任务上评估Mamba模型的性能，包括LAMBADA、HellaSwag、PIQA、ARC-challenge等。
3. DNA序列建模：
  - 模型规模（Scaling: Model Size）：在HG38（人类基因组）数据集上，研究不同模型背骨在不同规模下的性能。
  - 上下文长度（Scaling: Context Length）：固定模型规模，增加序列长度，观察模型性能随序列长度的增长情况。
  - 合成物种分类（Synthetic Species Classification）：在预训练模型的基础上，进行物种DNA序列的分类任务，以评估模型在长序列上的泛化能力。
4. 音频建模和生成：
  - 长上下文自回归预训练（Long-Context Autoregressive Pretraining）：在YouTubeMix数据集上，评估Mamba在不同序列长度下的预训练质量。
  - 自回归语音生成（Autoregressive Speech Generation）：在SC09数据集上，比较Mamba模型与现有最先进模型在自动语音生成任务上的性能。
5. 速度和内存基准测试（Speed and Memory Benchmarks）：
  - SSM扫描操作（Scan Operation）：在A100 GPU上，比较Mamba的SSM扫描操作与标准卷积和注意力操作的速度。
  - 端到端推理吞吐量（End-to-end Inference Throughput）：测量Mamba模型在不同批处理大小下的推理速度。
  - 内存消耗（Memory Consumption）：报告Mamba模型在训练过程中的内存使用情况，并与优化的Transformer模型进行比较。
这些实验旨在全面评估Mamba架构在不同场景下的性能，包括其在处理长序列数据时的效率和效果。

Q: 有什么可以进一步探索的点？

A: 尽管论文提出了Mamba架构并在多个领域展示了其有效性，但仍有一些潜在的研究方向可以进一步探索：
1. 模型规模的扩展：论文中的实验主要集中在较小的模型规模上。研究Mamba在更大模型规模（例如数十亿参数）上的性能，以及它是否能够保持或提高其在长序列任务上的优势。
2. 多模态学习：探索Mamba在处理多模态数据（如结合文本、图像和音频）时的性能，以及如何有效地整合不同模态的信息。
3. 跨领域迁移学习：研究Mamba在不同领域（如医疗、金融、法律等）的迁移学习能力，以及如何调整模型以适应特定领域的知识。
4. 模型解释性：提高Mamba模型的可解释性，以便更好地理解其在处理复杂任务时的决策过程。
5. 计算效率的进一步优化：尽管Mamba在计算效率上有所改进，但仍然可以探索新的算法和硬件优化技术，以进一步提高其在大规模部署中的实用性。
6. 长期记忆和上下文建模：研究Mamba在处理需要长期记忆和复杂上下文理解的任务（如故事生成、对话系统等）中的性能。
7. 模型鲁棒性：评估Mamba在面对噪声、异常值和对抗性攻击时的鲁棒性，并探索提高模型鲁棒性的策略。
8. 环境交互和强化学习：将Mamba应用于需要与环境交互的任务，如强化学习中的决策制定，以及探索其在这些任务中的性能和适用性。
9. 模型压缩和部署：研究如何有效地压缩Mamba模型以便于在资源受限的设备上部署，同时保持其性能。
10. 社会影响和伦理考量：随着模型规模的扩大，研究Mamba在实际应用中可能产生的社会影响，以及如何确保其符合伦理和公平性标准。
这些研究方向不仅有助于推动Mamba架构的发展，还能够为深度学习和人工智能领域的其他研究提供新的视角和方法。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一种名为Mamba的新型线性时间序列建模架构，旨在提高深度学习中基础模型（Foundation Models, FMs）在处理长序列数据时的计算效率。Mamba的核心是选择性状态空间模型（Selective State Space Models, SSMs），这些模型通过引入选择机制来改进传统的结构化状态空间模型（Structured State Space Models, SSMs），使其能够根据输入内容动态地选择性地处理信息。这种选择性允许模型在保持线性时间复杂度的同时，有效地处理长序列数据。

论文的主要贡献包括：
1. 选择性SSMs：提出了一种新的SSM，通过让模型参数依赖于输入，实现了对信息的选择性传播和遗忘，从而提高了模型在处理离散和信息密集型数据（如文本）时的性能。
2. 硬件感知的并行算法：设计了一种新的并行计算方法，通过在GPU内存层次结构中更高效地处理状态扩展，解决了选择性SSMs的计算效率问题。
3. 简化的神经网络架构：提出了Mamba架构，它将SSMs与Transformer的MLP块结合，形成了一个简单且同质的网络设计，无需额外的注意力或MLP块。
4. 跨模态性能验证：在多种数据模态（如语言、音频和基因组学）上验证了Mamba架构的有效性，展示了其在预训练质量和下游任务性能上的优势。
5. 效率基准测试：展示了Mamba在训练和推理速度上的优势，特别是在处理长序列数据时，其性能优于现有的Transformer模型。
论文的实验结果表明，Mamba在处理长序列数据时不仅提高了计算效率，而且在多个领域内实现了与Transformer模型相媲美或更优的性能。这表明Mamba有潜力成为通用序列模型的有力候选者，特别是在需要处理长序列数据的新兴领域，如基因组学、音频和视频。
2024 年 6 月 21 日
重温被Mamba带火的SSM：线性系统和HiPPO矩阵

近年来，深度学习领域涌现出许多新的模型架构，其中状态空间模型（SSM，State Space Model）因其优雅的数学性质和强大的表达能力，逐渐成为Transformer的强劲对手。而Mamba，作为SSM最新的变体，更是凭借其在长序列建模上的优异表现，吸引了众多研究者的关注。

本文将带您深入了解SSM的核心概念，并重温其重要奠基之作——HiPPO（High-order Polynomial Projection Operators）。通过HiPPO的推导，您可以理解线性系统在SSM中的重要性，以及它如何通过有限维的向量来储存无限维的函数信息。

线性系统：简单而强大的表达能力

SSM的核心思想是利用线性微分方程（ODE）系统来建模序列数据。一个典型的线性 ODE 系统可以表示为：

$\frac{dh}{dt} = Ah + Bu$

其中， $h$ 代表系统的状态， $u$ 代表输入， $A$ 和 $B$ 是模型参数。

那么，为什么SSM会选择线性系统呢？答案是：线性系统既足够简单，也足够复杂。

简单是指，线性化通常是复杂系统的一个最基本近似。而复杂是指，即使是如此简单的系统，也可以拟合异常复杂的函数。例如，一个简单的线性系统：

$\frac{dh}{dt} = h$

其解为 $h(t) = h(0)e^t$ 。这意味着，只要时间足够长，该线性系统就可以通过指数函数来拟合足够复杂的函数。

HiPPO：从正交基逼近到线性系统

HiPPO 为我们提供了一种更本质的理解：当我们试图用正交基去逼近一个动态更新的函数时，其结果就是如上的线性系统。

假设我们要用一个有限维的向量来储存一段信号 $x(t)$ 的信息。如果我们假设 $x(t)$ 在某点 $t_0$ 阶可导，那么它对应的 $t_0$ 阶泰勒展开式往往是 $x(t)$ 的良好近似。我们可以只储存展开式的系数，从而将 $x(t)$ 压缩为一个有限维向量。

然而，实际遇到的数据通常无法满足“阶可导”这种苛刻的条件。因此，我们更倾向于使用正交函数基展开，比如傅里叶级数。其系数计算公式为：

$c_k = \int_{-\infty}^{\infty} x(t)e^{-2\pi ikt} dt$

通过只保留有限个系数，我们可以将 $x(t)$ 压缩为一个有限维向量。

接下来，问题难度升级。实际中， $x(t)$ 代表的是持续采集的信号，所以它是不断有新数据进入的。我们需要更新逼近结果来记忆整个信号的历史。

为了解决这个问题，我们可以将 $x(t)$ 映射到一个有限区间 $[0, T]$ ，然后计算其在该区间上的傅里叶系数。

$c_k(T) = \int_{0}^{T} x(t)e^{-2\pi ikt} dt$

当新的数据进入时，我们可以重新计算系数，从而更新对 $x(t)$ 的逼近。

通过对系数的导数进行推导，我们可以发现，系数的变化满足一个线性 ODE 系统。这意味着，当我们试图用傅里叶级数去记忆一个实时函数的最邻近窗口内的状态时，结果自然而言地导致了一个线性 ODE 系统。

HiPPO 矩阵：勒让德多项式的应用

HiPPO 的核心是选取多项式为基函数。其中，勒让德多项式因其在实数空间中的定义和简化推导过程的优势，成为了 HiPPO 的首选。

勒让德多项式 $P_n(x)$ 是关于 $x$ 的 $n$ 次函数，定义域为 $[-1, 1]$ ，满足：

$\int_{-1}^{1} P_m(x)P_n(x) dx = \frac{2}{2n + 1}\delta_{mn}$

通过将勒让德多项式作为基函数，并利用其递归公式，我们可以推导出一个恒等式：

$\frac{d}{dT}P_n(2T/T - 1) = \frac{2n}{T}P_{n-1}(2T/T - 1)$

利用该恒等式，我们可以得到 HiPPO 矩阵，它描述了系数随时间的变化规律。

HiPPO 的应用：SSM 的基石

HiPPO 的结论被后来诸多 SSM 模型所使用，例如 S4 和 Mamba。HiPPO 为我们提供了一种理解 SSM 的全新视角，它揭示了线性系统在 SSM 中的本质意义，以及它如何通过有限维的向量来储存无限维的函数信息。

总结

本文以尽可能简单的方式重复了 HiPPO 的主要推导。HiPPO 通过适当的记忆假设，自下而上地导出了线性 ODE 系统，并针对勒让德多项式的情形求出了相应的解析解（HiPPO 矩阵）。其结果被后来诸多 SSM 模型使用，可谓是 SSM 的重要奠基之作。

参考文献

[1] https://papers.cool/arxiv/2312.00752
[2] https://papers.cool/arxiv/2305.13048
[3] https://papers.cool/arxiv/2307.08621
[4] https://papers.cool/arxiv/2008.07669
[5] https://dblp.org/pid/130/0612.html
[6] https://en.wikipedia.org/wiki/Kronecker_delta
[7] https://en.wikipedia.org/wiki/Legendre_polynomials
[8] https://en.wikipedia.org/wiki/Gram–Schmidt_process
[9] https://en.wikipedia.org/wiki/Chebyshev_polynomials
[10] https://en.wikipedia.org/wiki/Laguerre_polynomials
[11] https://proceedings.neurips.cc/paper/2019/file/952285b9b7e7a1be5aa7849f32ffff05-Paper.pdf

2024 年 6 月 21 日
大模型的可控生成：CoDI-Eval 基准测试
近年来，大型语言模型（LLM）在理解和执行自然语言指令方面展现出惊人的能力，为自然语言处理领域带来了革命性的变革。然而，LLM 并不总是能准确地响应包含特定约束的指令。例如，要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件，它们可能无法满足这些要求。因此，评估 LLM 对包含特定约束指令的响应能力至关重要。

可控文本生成：传统方法的局限性

可控文本生成（CTG）是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上，例如控制文本长度或包含特定关键词。然而，这种方法并不适用于新的指令遵循范式，因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。

此外，在现实场景中，指令中的约束条件通常以自由形式的自然语言表达，例如“写一篇关于人工智能的简短文章”。因此，LLM 需要能够理解各种表达方式的约束条件，并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力，以及与实际用户期望的匹配程度。

CoDI-Eval：一个新的基准测试

为了填补这一空白，并推动 LLM 与人类期望更好地对齐的研究，我们提出了 CoDI-Eval（Controllable Generation under Diversified Instructions），一个新的基准测试，用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务，并使用多样化的自然语言指令来表达约束条件，从而更准确地衡量 LLM 对包含特定约束指令的响应能力。

CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面，我们选择了五个典型的 CTG 任务，涵盖了情感、主题、长度、关键词和避免毒性等方面。此外，我们还包含了一个多方面控制的任务，同时包含两个方面的约束条件，以测试 LLM 在更具挑战性的复杂场景下的表现。

在泛化能力方面，我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”，使用一个强大的 LLM 生成更多指令，从而构建指令池。第二步是“多样化”，通过对指令进行文本重写，以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步，直到达到预期的指令规模。这两个步骤都由 LLM 自动完成，无需人工干预。

CoDI-Eval 的评估方法

为了评估 CoDI-Eval，我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务，我们借助现有的开源专用模型或外部 API，并证明这些替代方法与人工评估结果一致。每个 CTG 任务的评估指标是准确率，我们使用所有 CTG 任务的平均准确率来衡量不同 LLM 的可控生成能力。

实验结果

我们对主流 LLM（例如 ChatGPT、LLaMA2-chat、Vicuna）进行了广泛的评估，结果表明，顶级商业 LLM 在所有 CTG 任务上都取得了最高得分，而我们测试的开源 LLM 在准确率上存在超过 10% 的差距。此外，经过微调的 LLM 表现优于基础语言模型，而那些在更大规模数据上进行微调的模型（例如 LLaMA2-chat、ChatGLM）也比仅经过指令微调的同参数量 LLM（例如 Vicuna、Alpaca）表现更好。

在不同任务上的表现方面，LLM 在情感和主题控制任务上表现相对较好。然而，当这两个属性组合在一起时，任务难度会增加，所有 LLM 的准确率都未达到 80%。我们以 GPT-3.5-turbo 为例，分析了 LLM 在多方面可控生成任务上出现错误的原因。

在避免毒性任务中，只有经过对齐微调的 LLM（例如 RLHF）才能在这项任务上表现良好，特别是经过更精细对齐训练的 GPT-4 和 GPT-3.5-turbo。

在硬约束方面，LLM 在关键词任务上的准确率接近平均准确率。我们分析了 LLM 在复杂关键词 CTG 任务上出现错误的原因。然而，在看似简单的长度 CTG 任务中，即使是 GPT-3.5-turbo 的准确率也只有 55%，这表明大多数 LLM 对长度的感知能力不足。然而，GPT-4 在这项任务上表现出更强的能力。我们计算了 GPT-3.5-turbo 在长度控制生成每个子任务上的准确率，发现准确率与目标长度范围大致呈正相关。

结论

本文介绍了 CoDI-Eval，一个用于评估 LLM 可控文本生成能力的新基准测试。我们的基准测试包含一组评估指令，涉及多个 CTG 任务，并使用各种自然语言表达方式来表达约束条件。我们的结果表明，经过指令微调的 LLM 能够执行某些 CTG 任务，但生成文本的准确率还有待提高，特别是对于某些特定的约束条件。我们还观察到开源 LLM 与闭源商业 LLM 之间的性能差距，这为未来的研究指明了方向。

参考文献
- Chen, Yihan, et al. “Benchmarking Large Language Models on Controllable Generation under Diversified Instructions.” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 17808-17816.
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：大型语言模型（LLMs）在遵循自然语言指令方面表现出色，但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应，论文提出了一个新的基准测试（Benchmark），名为CoDI-Eval（Controllable Generation under Diversified Instructions），用于系统和全面地评估LLMs对具有各种约束的指令的响应。

具体来说，论文的主要贡献包括：
1. 提出了一个新的基准测试CoDI-Eval，它通过纳入自然语言格式的多样化指令来评估LLMs的可控文本生成（CTG）能力，超越了传统的评估方法。
2. 伴随着基准测试，提供了自动化且易于使用的评估方法，以促进进一步的发展。
3. 对一系列已创建的LLMs进行了零样本（zero-shot）和少样本（few-shot）评估，首次系统地验证并比较了它们在CTG任务上的性能。
论文通过构建一个大型的、具有约束属性的指令集合作为测试套件，专注于泛化和覆盖范围，并通过指令多样化过程来合成不同形式的约束表达，同时仔细考虑了候选任务分类，以更细粒度的子类别进行划分。最后，论文自动化了整个评估过程，以促进未来的研究发展。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要包括以下几个方面：
1. 大型语言模型（LLMs）：研究者们开发了各种方法来增强或利用LLMs的能力，包括指令调整（instruction tuning）和上下文学习（in-context learning，ICL）。
2. 数据生成：利用LLMs生成数据的趋势，例如Self-Instruct和Unnatural Instructions，这些方法依赖于LLMs提供指令和响应，以克服手动编写数据的局限性。
3. 可控文本生成（Controllable Text Generation, CTG）：当前的CTG任务主要集中在硬约束和软约束两类上。硬约束限制文本的词汇和语法，如控制文本长度和确保生成的文本包含某些关键词。软约束旨在限制文本的语义，如情感和主题。
4. CTG的评估：之前没有统一的CTG领域基准，但一些研究尝试了不同的评估方法。例如，PPLM设计了几种短前缀作为CTG模型的输入，DExperts采用了与RealToxicPrompt类似的方法，通过构建多个提示来评估模型在不同输入提示下控制情感的能力。
5. 指令遵循：研究者们也关注了LLMs遵循指令的能力，例如通过使用分类任务中的指令来评估LLMs是否能够遵守指令中的要求。
6. 模型性能比较：论文中还提到了对不同LLMs在CoDI-Eval基准测试上的性能进行了比较，揭示了它们在遵循具有特定约束的指令方面的局限性。
这些相关研究为论文提出的CoDI-Eval基准测试提供了理论和技术背景，并且展示了LLMs在可控文本生成方面的潜力和挑战。论文通过这些研究的对比，强调了其在指令多样化和评估自动化方面的创新点。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决大型语言模型（LLMs）在遵循带有特定约束的指令方面评估的问题：
1. 提出CoDI-Eval基准测试：CoDI-Eval（Controllable Generation under Diversified Instructions）是一个新提出的基准测试，旨在系统和全面地评估LLMs对带有各种约束的指令的响应能力。
2. 构建测试套件：作者构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令专注于泛化和覆盖范围，以确保能够全面评估LLMs的性能。
3. 指令多样化：通过一个两步过程来最大化指令的多样性。首先，从一个小型的、人工策划的种子指令集开始，然后通过扩展过程增加指令数量，构建指令池。其次，从池中随机抽取指令，并通过文本重写的方式进一步多样化这些指令。
4. 自动化评估过程：为了促进进一步的研究发展，作者自动化了整个评估过程，包括指令的生成、多样化以及评估方法的自动化。
5. 评估方法：对于每个可控文本生成任务，作者收集或构建了自动化、易于使用且可靠的评估方法。对于不能直接评估的任务，作者使用了开源的、专门的模型或外部API，并证明了这些替代方法与人类评估具有合格的一致性。
6. 实验验证：作者对一系列主流的LLMs（例如ChatGPT、LLaMA-13B-chat、Vicuna-13B等）进行了广泛的评估，以验证CoDI-Eval的性能，并揭示了LLMs在遵循具有特定约束的指令方面的局限性。
7. 性能比较：通过比较不同LLMs在CoDI-Eval上的性能，作者揭示了开源LLMs与商业闭源LLMs之间的性能差距，并指出了未来研究的潜在方向。
通过这些步骤，论文不仅提出了一个新的基准测试来评估LLMs的可控文本生成能力，而且还通过实验验证了该基准测试的有效性，并为未来的研究提供了一个有用的工具。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证CoDI-Eval基准测试的有效性和评估不同大型语言模型（LLMs）的性能：
1. 模型性能评估：作者对一系列主流的LLMs进行了评估，包括商业模型（如GPT-4和ChatGPT）和开源模型（如LLaMA-13B-chat、Vicuna-13B等）。评估的目的是验证这些模型在遵循带有特定约束的指令方面的能力。
2. 零样本（Zero-shot）和少样本（Few-shot）设置：作者使用了零样本和少样本的提示来测试LLMs对指令中约束的响应能力。零样本设置没有使用任何示例，而少样本设置则在提示中添加了5个指令-响应对作为示例。
3. 不同任务的性能比较：作者比较了LLMs在不同可控文本生成（CTG）任务上的性能，包括情感、主题、多方面、长度、关键词和毒性避免任务。
4. 错误分析：对于多方面可控生成任务和复杂关键词CTG任务，作者分析了GPT-3.5-turbo（ChatGPT）响应错误的原因。
5. 长度可控文本生成任务的子任务分析：作者计算了GPT-3.5-turbo在长度可控文本生成任务的各个子任务上的准确率，并发现准确率与目标长度的范围大致正相关。
6. 指令多样性分析：作者通过构建仅使用指令扩展步骤的指令集，并与CoDI-Eval中的最终指令集进行比较，来验证“指令多样化”步骤的有效性。
7. 评估方法的质量验证：作者通过人工判断来验证自动化评估方法的可靠性，特别是对于情感、主题和多方面控制任务。
8. 进一步讨论：作者讨论了LLMs在特定长度约束下生成文本的表现不佳的原因，并提出了可能的改进方向。
这些实验不仅展示了CoDI-Eval基准测试的评估能力，而且还揭示了当前LLMs在可控文本生成方面的局限性，特别是在处理特定约束时。实验结果为未来的研究方向提供了有价值的见解。

Q: 有什么可以进一步探索的点？

A: 根据论文内容，以下是一些可以进一步探索的点：
1. 改进长度感知能力：LLMs在处理长度约束方面表现不佳，需要研究如何提高模型对文本长度的感知和控制能力。
2. 增强指令理解：探索新的方法来提高LLMs对多样化指令的理解，特别是对于复杂或不常见的指令表达。
3. 优化少样本学习：研究如何通过少样本学习更有效地提高LLMs的可控文本生成能力，考虑到当前的简单示例可能不足以捕捉指令的多样性。
4. 指令多样化的自动化：尽管论文中提出了指令多样化的方法，但这个过程仍然可以进一步自动化和优化，以减少人工干预并提高效率。
5. 跨语言评估：探索CoDI-Eval基准测试在不同语言上的适用性，以及如何调整评估方法以适应不同的语言特性。
6. 模型架构改进：研究不同的模型架构和训练策略，以更好地处理带有约束的文本生成任务。
7. 实时性能评估：开发实时评估工具，以便在模型生成文本时即时评估其性能，这可能有助于提高交互式应用的用户体验。
8. 可解释性和透明度：提高LLMs在可控文本生成任务中的可解释性，帮助用户理解模型的决策过程。
9. 伦理和公平性：确保LLMs在生成文本时遵循伦理准则，避免产生有害或偏见的内容。
10. 多任务学习：研究LLMs在同时处理多个不同类型的可控文本生成任务时的性能，以及如何优化模型以提高多任务处理能力。
11. 数据集和基准测试的扩展：扩充CoDI-Eval数据集，添加更多的指令和任务类型，以更全面地评估LLMs的能力。
12. 用户研究：进行用户研究，以了解用户对LLMs生成的文本的满意度，以及他们对可控文本生成的具体需求。
这些探索点可以帮助研究者们更好地理解和改进LLMs在可控文本生成方面的表现，同时也为LLMs的实际应用提供指导。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题定义：论文探讨了大型语言模型（LLMs）在遵循带有特定约束的自然语言指令方面的能力，并指出了现有评估方法的不足。
2. CoDI-Eval基准测试：提出了一个新的基准测试CoDI-Eval，用于系统和全面地评估LLMs对带有各种约束的指令的响应能力。
3. 测试套件构建：构建了一个大型的、具有约束属性的指令集合作为测试套件，这些指令覆盖了情感、主题、长度、关键词和毒性避免等多个方面。
4. 指令多样化：通过一个两步过程（扩展和多样化）来增加指令的多样性，使用LLMs自动生成指令并进行文本重写。
5. 自动化评估：开发了自动化的评估方法，使用开源模型和API来评估LLMs在各个CTG任务上的性能。
6. 实验验证：对多个主流LLMs进行了广泛的评估，包括商业模型和开源模型，揭示了它们在遵循特定约束指令方面的局限性。
7. 性能比较：比较了不同LLMs在CoDI-Eval上的性能，发现商业闭源模型通常优于开源模型。
8. 错误分析：对LLMs在多方面可控生成任务和复杂关键词CTG任务上的错误进行了分析。
9. 进一步讨论：讨论了LLMs在长度可控文本生成任务中的挑战，并提出了可能的改进方向。
10. 结论：论文得出结论，CoDI-Eval基准测试能够有效评估LLMs的可控文本生成能力，并指出了未来研究的潜在方向。
整体而言，这篇论文通过提出新的基准测试和评估方法，为理解和改进LLMs在可控文本生成方面的能力提供了重要的工具和见解。
2024 年 6 月 21 日
大型语言模型的检索增强生成：机遇与挑战
大型语言模型（LLM）如ChatGPT和ChatGLM的出现，标志着人工智能领域取得了重大突破。它们展现出惊人的通用能力，能够胜任多种任务，例如文本生成、问答和翻译。然而，这些模型也存在一些固有的缺陷，例如事实性幻觉、知识过时以及缺乏领域专业知识。

为了克服这些缺陷，检索增强生成（RAG）应运而生。RAG通过将外部知识库与LLM结合，赋予模型更强大的信息获取能力，从而生成更准确、更可靠的答案。

RAG的四个关键能力

然而，RAG并非万能药。外部知识库中存在大量噪声信息，甚至虚假新闻，这给检索引擎带来了准确获取所需知识的挑战。另一方面，LLM本身也存在着不可靠的生成问题。它们可能被上下文中的错误信息误导，并在生成过程中出现幻觉，导致最终生成的文本超出外部信息的范围。

因此，为了更好地理解RAG在LLM中的应用，我们需要对LLM在RAG中所需要的关键能力进行评估。本文将探讨四个关键能力：

1. 噪声鲁棒性： LLM能够从包含噪声的文档中提取有用信息。噪声文档是指与问题相关，但并不包含答案信息的文档。例如，对于问题“谁获得了2022年诺贝尔文学奖？”，噪声文档可能包含关于2021年诺贝尔文学奖的报道。

2. 负面拒绝： 当检索到的文档中不包含所需知识时，LLM能够拒绝回答问题。在现实场景中，搜索引擎经常无法检索到包含答案的文档。在这种情况下，模型需要具备拒绝识别能力，避免生成误导性内容。

3. 信息整合： LLM能够整合来自多个文档的信息，回答复杂问题。例如，对于问题“ChatGPT的iOS应用和API分别在什么时候发布？”，LLM需要提供ChatGPT iOS应用和ChatGPT API的发布日期。

4. 反事实鲁棒性： LLM能够识别检索到的文档中已知事实错误的风险。当LLM通过指令被告知检索到的信息存在潜在风险时，它需要能够识别这些风险。

检索增强生成基准测试 (RGB)

为了对LLM在RAG中的能力进行评估，本文创建了检索增强生成基准测试 (RGB)。RGB包含英语和中文版本，旨在评估LLM在上述四个方面的能力。

RGB的构建过程如下：

1. 问答实例生成： 从最新的新闻文章中提取事件、问题和答案。例如，对于一篇关于“2022年诺贝尔奖”的报道，ChatGPT可以生成相应的事件、问题和关键信息。

2. 使用搜索引擎检索： 使用Google Search API检索与每个问题相关的网页，并提取相应的文本片段。同时，将这些网页的文本内容转换为长度不超过300个token的文本块。使用开源密集检索模型，选择与问题最匹配的30个文本块。这些检索到的文本块，以及搜索API提供的片段，将作为外部文档。

3. 构建每个能力的测试集： 根据LLM的四个基本能力，将数据集划分为四个测试集。为了评估噪声鲁棒性，根据所需的噪声比例，对负面文档进行抽样。对于负面拒绝，所有外部文档都来自负面文档。对于信息整合能力，根据已生成的问题，进一步构建数据。这包括扩展或改写这些问题，使其答案包含多个方面。例如，问题“谁获得了2023年超级碗的MVP？”可以改写为“谁获得了2022年和2023年超级碗的MVP？”。因此，回答这类问题需要利用来自多个文档的信息。与前三个能力不同，反事实鲁棒性的数据仅基于模型的内部知识构建。根据上述生成的问题，使用ChatGPT自动生成模型已知的知识。具体来说，使用提示让模型生成已知的问题和答案。例如，基于问题“谁获得了2022年诺贝尔生理学或医学奖？”，模型将生成已知问题“谁获得了2021年诺贝尔文学奖？”，并回答“阿卜杜勒拉扎克·古尔纳”。然后，手动验证生成的答案，并按照上述方法检索相关文档。为了使文档包含事实错误，手动修改答案，并替换文档中相应的部分。

最终，RGB包含600个基本问题，以及200个用于信息整合能力的额外问题和200个用于反事实鲁棒性能力的额外问题。其中一半的实例为英语，另一半为中文。

评估指标

RGB主要评估LLM是否能够利用提供的外部文档获取知识，并生成合理的答案。评估指标包括：

1. 准确率： 用于评估噪声鲁棒性和信息整合能力。采用精确匹配方法，如果生成的文本包含与答案完全匹配的部分，则视为正确答案。

2. 拒绝率： 用于评估负面拒绝能力。当仅提供噪声文档时，LLM应该输出特定内容 – “由于文档中信息不足，我无法回答这个问题。”（我们使用指令告知模型）。如果模型生成此内容，则表示成功拒绝。

3. 错误检测率： 用于评估模型是否能够检测文档中的事实错误（反事实鲁棒性）。当提供的文档包含事实错误时，模型应该输出特定内容 – “提供的文档中存在事实错误。”（我们使用指令告知模型）。如果模型生成此内容，则表示模型已检测到文档中的错误信息。

4. 错误纠正率： 用于评估模型在识别错误后是否能够提供正确答案（反事实鲁棒性）。要求模型在识别事实错误后生成正确答案。如果模型生成正确答案，则表示模型能够纠正文档中的错误。

实验结果与分析

本文对六个最先进的LLM进行了评估，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7b、Qwen-7B-Chat和BELLE-7B。实验结果表明，尽管RAG可以提高LLM的响应准确率，但它们在上述四个方面仍然存在显著的挑战。

1. 噪声鲁棒性： 实验结果表明，LLM在一定程度上表现出噪声鲁棒性，但当存在相关信息时，它们倾向于混淆相似信息，并经常生成不准确的答案。例如，当面对关于2022年诺贝尔文学奖的问题时，如果外部文档中存在关于2021年诺贝尔文学奖的噪声文档，LLM可能会感到困惑，并提供不准确的答案。

2. 负面拒绝： 实验结果表明，当外部文档中不包含相关信息时，LLM经常无法拒绝回答问题，并生成错误的答案。

3. 信息整合： 实验结果表明，LLM缺乏从多个文档中进行总结的能力。因此，如果需要多个文档才能回答问题，LLM通常无法提供准确的答案。

4. 反事实鲁棒性： 实验结果表明，即使LLM包含所需知识，并通过指令被告知检索到的信息存在潜在风险，它们仍然倾向于相信并优先考虑检索到的信息，而不是它们自己的现有知识。

未来方向

实验结果表明，现有的RAG方法仍然存在一些重要的挑战，需要进一步解决。为了确保LLM能够生成准确可靠的答案，需要谨慎使用RAG，并进行精心设计。

未来研究方向包括：
- 提高模型对长文档的建模能力和精确概念理解能力。
- 增强LLM准确匹配问题与相应文档的能力。
- 提高模型对复杂问题的理解能力，并利用来自不同子问题的有效信息。
- 开发能够识别和纠正文档中事实错误的机制。
结论

本文对LLM在检索增强生成中的四个关键能力进行了评估，并构建了检索增强生成基准测试 (RGB)。实验结果表明，现有的LLM在四个方面都存在局限性。这表明，要有效地将RAG应用于LLM，还需要进行大量的研究工作。

参考文献
- Adlakha, V., BehnamGhader, P., Lu, X. H., Meade, N., & Reddy, S. (2023). Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering. arXiv:2307.16877.
- Bai, J., Bai, S., Chu, Y., Cui, Z., Dang, K., Deng, X., … & Zhu, T. (2023). Qwen Technical Report. arXiv preprint arXiv:2309.16609.
- Bang, Y., Cahyawijaya, S., Lee, N., Dai, W., Su, D., … & Fung, P. (2023). A Multitask, Multilingual, Multi-modal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. arXiv:2302.04023.
- BELLEGroup. (2023). BELLE: Be Everyone’s Large Language model Engine. https://github.com/LianjiaTech/BELLE. Accessed: 2024-01-10.
- Bian, N., Liu, P., Han, X., Lin, H., Lu, Y., He, B., & Sun, L. (2023). A Drop of Ink Makes a Million Think: The Spread of False Information in Large Language Models. arXiv:2305.04812.
- Borgeaud, S., Mensch, A., Hoffmann, J., Cai, T., Rutherford, E., … & Sifre, L. (2022). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426.
- Cai, D., Wang, Y., Bi, W., Tu, Z., Liu, X., Lam, W., & Shi, S. (2019a). Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1219–1228. Minneapolis, Minnesota: Association for Computational Linguistics.
- Cai, D., Wang, Y., Bi, W., Tu, Z., Liu, X., & Shi, S. (2019b). Retrieval-guided Dialogue Response Generation via a Matching-to-Generation Framework. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1866–1875. Hong Kong, China: Association for Computational Linguistics.
- Cao, M., Dong, Y., Wu, J., & Cheung, J. C. K. (2020). Factual Error Correction for Abstractive Summarization Models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 6251–6258. Online: Association for Computational Linguistics.
- Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., … & Xie, X. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., … & Xing, E. P. (2023). Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.
- Cui, J., Li, Z., Yan, Y., Chen, B., & Yuan, L. (2023). ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases. arXiv:2306.16092.
- Drozdov, A., Sch¨arli, N., Aky¨urek, E., Scales, N., Song, X., … & Zhou, D. (2023). Compositional Semantic Parsing with Large Language Models. In The Eleventh International Conference on Learning Representations.
- Edward Beeching, N. H. S. H. N. L. N. R. O. S. L. T. T. W., Cl´ementine Fourrier. (2023). Open LLM Leaderboard. https://huggingface.co/spaces/HuggingFaceH4/open llm leaderboard. Accessed: 2024-01-10.
- Guo, B., Zhang, X., Wang, Z., Jiang, M., Nie, J., … & Wu, Y. (2023). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection. arXiv:2301.07597.
- Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M.-W. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning, ICML’20. JMLR.org.
- He, H., Zhang, H., & Roth, D. (2022). Rethinking with Retrieval: Faithful Large Language Model Inference. arXiv:2301.00303.
- Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., … & Steinhardt, J. (2021). Measuring Massive Multitask Language Understanding. In International Conference on Learning Representations.
- Huang, Y., Bai, Y., Zhu, Z., Zhang, J., Zhang, J., … & He, J. (2023). C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models. arXiv preprint arXiv:2305.08322.
- Izacard, G., & Grave, E. (2021). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 874–880. Online: Association for Computational Linguistics.
- Izacard, G., Lewis, P., Lomeli, M., Hosseini, L., Petroni, F., … & Grave, E. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299.
- Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., … & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12).
- Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., … & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Proceedings of the 34th International Conference on Neural Information Processing Systems, NIPS’20. Red Hook, NY, USA: Curran Associates Inc. ISBN 9781713829546.
- Li, D., Rawat, A. S., Zaheer, M., Wang, X., Lukasik, M., … & Kumar, S. (2023a). Large Language Models with Controllable Working Memory. In Findings of the Association for Computational Linguistics: ACL 2023, 1774–1793. Toronto, Canada: Association for Computational Linguistics.
- Li, X., Zhang, T., Dubois, Y., Taori, R., Gulrajani, I., … & Hashimoto, T. B. (2023b). AlpacaEval: An Automatic Evaluator of Instruction-following Models. https://github.com/tatsu-lab/alpaca eval. Accessed: 2024-01-10.
- Li, X., Zhu, X., Ma, Z., Liu, X., & Shah, S. (2023c). Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks. arXiv:2305.05862.
- Liu, N. F., Zhang, T., & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. arXiv:2304.09848.
- Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–1919. Online: Association for Computational Linguistics.
- OpenAI. (2022). Chatgpt: Optimizing language models for dialogue. https://openai.com/blog/chatgpt. Accessed: 2024-01-10.
- Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., … & Gao, J. (2023). Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. arXiv:2302.12813.
- Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., … & Sun, M. (2023). ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789.
- Raunak, V., Menezes, A., & Junczys-Dowmunt, M. (2021). The Curious Case of Hallucinations in Neural Machine Translation. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1172–1183. Online: Association for Computational Linguistics.
- Ren, R., Wang, Y., Qu, Y., Zhao, W. X., Liu, J., … & Wang, H. (2023). Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation. arXiv:2307.11019.
Q: 这篇论文试图解决什么问题？

A: 这篇论文探讨了如何通过检索增强生成（Retrieval-Augmented Generation, RAG）来减轻大型语言模型（Large Language Models, LLMs）的幻觉问题。幻觉问题指的是语言模型可能会生成与给定上下文无关或事实错误的信息。尽管RAG被认为是解决这一挑战的有前途的方法，但现有研究缺乏对RAG对不同LLMs影响的严格评估，这使得难以确定RAG在不同LLMs中的潜在瓶颈。

具体来说，论文的主要贡献和解决的问题包括：
1. 系统评估RAG对LLMs的影响：分析不同LLMs在RAG所需的4个基本能力上的表现，包括噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
2. 创建评估基准：创建了一个新的RAG评估语料库（Retrieval-Augmented Generation Benchmark, RGB），用于评估英文和中文的RAG性能。
3. 诊断当前LLMs的挑战：通过RGB评估6个代表性的LLMs，以诊断当前LLMs在应用RAG时面临的挑战。
4. 识别和提出改进方向：评估结果揭示了LLMs在噪声鲁棒性、负面拒绝、信息集成和处理错误信息方面的不足，并指出了有效应用RAG到LLMs的前进方向。
5. 提供数据和代码：论文还提供了相关的数据和代码，以促进进一步的研究和开发。
总体而言，这篇论文试图通过创建一个全面的评估基准来深入理解RAG在LLMs中的应用，并识别现有方法中的关键问题，从而为未来的研究提供指导。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要集中在以下几个领域：
1. 检索增强模型（Retrieval-Augmented Models）：这类研究探讨了如何通过检索外部知识来提高语言模型的生成准确性和可靠性。相关研究包括Guu et al. (2020), Lewis et al. (2020), Borgeaud et al. (2022), Izacard et al. (2022) 等。
2. 大型语言模型（Large Language Models, LLMs）的评估：这些研究关注于如何全面评估LLMs的能力，包括GLUE (Wang et al. 2019b), SuperCLUE (Wang et al. 2019a), MMLU (Hendrycks et al. 2021), AGIEval (Zhong et al. 2023), C-Eval (Huang et al. 2023), AlpacaEval (Li et al. 2023b), OpenLLM Leaderboard (Edward Beeching 2023) 等。
3. 处理噪声和错误信息：研究了LLMs在面对噪声信息和错误信息时的鲁棒性，例如Cao et al. (2020), Raunak, Menezes, and Junczys-Dowmunt (2021), Ji et al. (2023) 等。
4. 知识更新和领域特定专业知识：探讨了LLMs在知识更新和缺乏领域特定专业知识方面的挑战，如He, Zhang, and Roth (2022), Li et al. (2023c), Shen et al. (2023) 等。
5. 检索增强生成的评估：研究了如何在现有的问答数据集上评估LLMs的RAG能力，例如Adlakha et al. (2023)。
6. 安全性和责任：评估了LLMs在安全性和责任方面的表现，如CValues (Xu et al. 2023a)。
7. 人类考试和工具使用：研究了LLMs在模拟人类考试和工具使用方面的能力，如M3Exam (Zhang et al. 2023), ToolBench (Qin et al. 2023)。
这些相关研究为本文提出的RGB基准提供了理论和实证基础，并帮助确定了评估LLMs在RAG中所需能力的各个方面。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤来解决大型语言模型（LLMs）在检索增强生成（RAG）中面临的挑战：
1. 定义四个基本能力：首先，论文定义了RAG所需的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
2. 构建评估基准（RGB）：为了评估这些能力，论文创建了一个新的评估基准，即检索增强生成基准（Retrieval-Augmented Generation Benchmark, RGB）。RGB使用最新的新闻文章来构建问题和答案数据，并通过网络搜索引擎检索外部文档。
3. 数据生成过程：通过使用ChatGPT生成事件、问题和答案，并利用搜索引擎API检索相关网页，然后使用密集检索模型重新排名这些网页的内容。
4. 构建测试床：根据上述基本能力，RGB将语料库扩展并划分为四个测试床，以评估LLMs的不同能力。
5. 评估指标：论文使用了准确性、拒绝率、错误检测率和错误修正率等指标来评估LLMs在RGB上的表现。
6. 实验：对六个现有的LLMs进行了评估，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7B、Qwen-7B-Chat和BELLE-7B。实验结果揭示了LLMs在上述四个能力方面的局限性。
7. 错误分析：通过案例研究，论文分析了LLMs在噪声鲁棒性、负面拒绝和信息集成方面的典型错误，如长距离信息、证据不确定性和概念混淆。
8. 提出改进方向：基于评估结果和错误分析，论文讨论了LLMs在RAG应用中的挑战，并提出了可能的改进方向，如提高模型对复杂问题的理解能力和对错误信息的识别能力。
9. 谨慎使用RAG：论文最后强调，在有效应用RAG到LLMs之前，还有大量的工作要做，并建议在使用RAG时应该谨慎并仔细设计。
通过这些步骤，论文不仅评估了LLMs在RAG中的性能，还为未来的研究方向和LLMs的改进提供了指导。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估大型语言模型（LLMs）在检索增强生成（RAG）中的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。具体的实验包括：
1. 噪声鲁棒性实验：通过在外部文档中引入不同比例的噪声（无关信息），评估LLMs在存在噪声时的准确性。实验结果表明，当噪声比例超过80%时，LLMs的准确性显着下降。
2. 负面拒绝实验：在只提供噪声文档的情况下，评估LLMs拒绝回答的能力。实验结果显示，LLMs在负面拒绝方面表现不佳，即使在只有噪声文档的情况下，它们也很少拒绝回答。
3. 信息集成实验：通过构造需要从多个文档中集成信息才能回答的问题，评估LLMs的信息集成能力。实验发现，LLMs在处理复杂问题时，即使没有噪声，准确性也较低，这表明它们在集成信息方面存在挑战。
4. 反事实鲁棒性实验：在提供包含事实错误的文档时，评估LLMs识别和纠正错误信息的能力。实验结果表明，LLMs很难识别文档中的错误并提供正确的答案。
5. 错误分析：对LLMs在上述实验中的错误回答进行了详细分析，以了解它们在RAG中的局限性。分析发现错误通常源于长距离信息、证据不确定性和概念混淆。
6. 模型性能比较：评估了六个代表性的LLMs，包括ChatGPT、ChatGLM-6B、ChatGLM2-6B、Vicuna-7B-v1.3、Qwen-7B-Chat和BELLE-7B-2M，并比较了它们在RGB基准上的性能。
这些实验提供了对LLMs在RAG中性能的全面评估，并揭示了它们在不同能力方面的不足，为未来的研究和模型改进提供了方向。

Q: 有什么可以进一步探索的点？

A: 根据论文内容，以下是一些可以进一步探索的点：
1. 改进噪声鲁棒性：研究如何提高LLMs在面对大量噪声信息时的鲁棒性，例如通过更好的信息检索技术或增强模型对噪声的识别能力。
2. 增强负面拒绝能力：开发机制让LLMs在检索到的信息不足以回答问题时能够更准确地拒绝回答，避免误导用户。
3. 提升信息集成能力：探索如何改进LLMs处理复杂问题时的信息集成能力，可能的研究方向包括改进模型的多文档理解和推理能力。
4. 反事实鲁棒性的提升：研究如何使LLMs更好地识别和纠正检索到的文档中的错误信息，这可能涉及到事实验证和错误检测算法的发展。
5. 模型推理能力：提高LLMs的推理能力，特别是在处理需要多步骤逻辑推理的复杂问题时。
6. 长文档处理：改进LLMs处理长文档的能力，这可能包括更好的文档摘要技术或对文档结构的理解。
7. 概念理解：加强LLMs对概念之间细微差别的理解，以减少概念混淆导致的错误。
8. 检索策略优化：研究更有效的检索策略，以提高检索到的信息质量和相关性。
9. 用户指令的更好集成：改进LLMs对用户指令的理解和执行，以提高对用户需求的响应能力。
10. 跨语言评估：扩展RGB基准到更多语言，并研究LLMs在不同语言和文化背景下的性能。
11. 实时性能：考虑到实际应用中对实时响应的需求，研究如何优化LLMs的推理速度，特别是在执行复杂的检索增强任务时。
12. 可解释性和透明度：提高LLMs在RAG过程中的可解释性，帮助用户理解模型的决策过程。
13. 安全性和隐私：在RAG的应用中，考虑数据的安全性和隐私保护，确保用户信息的安全。
14. 多模态信息检索：探索如何将多模态信息（如图像、视频）集成到RAG中，以提高生成内容的丰富性和准确性。
这些探索点可以帮助研究者们更好地理解和改进LLMs在RAG中的应用，同时也为未来的研究方向提供了可能的路径。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题背景：大型语言模型（LLMs）在生成文本时存在幻觉问题，即生成与给定上下文无关或事实错误的信息。为了解决这一问题，研究者们提出了检索增强生成（RAG）方法。
2. 研究目的：论文旨在系统评估RAG对不同LLMs的影响，并识别在RAG中应用时的潜在瓶颈。
3. 四个基本能力：定义了RAG所需的四个基本能力：噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。
4. RGB基准：创建了一个新的评估基准，即检索增强生成基准（RGB），用于评估LLMs在RAG中的性能。
5. 数据生成：通过最新的新闻文章生成问题和答案数据，并使用搜索引擎API检索相关文档。
6. 测试床构建：根据四个基本能力，将数据集划分为四个测试床，以评估LLMs的不同能力。
7. 评估指标：使用准确性、拒绝率、错误检测率和错误修正率等指标来评估LLMs的性能。
8. 实验结果：对六个代表性的LLMs进行了评估，发现它们在噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性方面存在挑战。
9. 错误分析：通过案例研究分析了LLMs在RAG中的错误，发现错误通常源于长距离信息、证据不确定性和概念混淆。
10. 改进方向：基于评估结果和错误分析，论文讨论了LLMs在RAG应用中的挑战，并提出了可能的改进方向。
11. 结论：指出了LLMs在RAG中的局限性，并强调了在实际应用中需要谨慎使用RAG，同时提出了未来研究的方向。
12. 贡献：论文的贡献包括提出了评估RAG的四个能力、创建了RGB基准、评估了现有LLMs的局限性，并分析了它们的响应，为改进RAG方法提供了方向。
13. 支持与资助：研究工作得到了中国国家自然科学基金、中国科学院青年科学家基础研究项目和北京市科学技术委员会的支持。
2024 年 6 月 21 日
AI 幻觉：技术真相、风险与机遇，以及人类的应对之策
这篇文章深入探讨了人工智能领域的一个重要问题：AI 幻觉。作者从多个角度剖析了 AI 幻觉的定义、产生原因、潜在风险以及应对策略，并探讨了 AI 幻觉与人类认知偏差之间的关系，最后对 AI 的未来发展提出了展望。

一、什么是 AI 幻觉？

AI 幻觉是指 AI 系统生成的输出内容看似合理流畅，但实际上与输入信息、上下文环境或客观事实相矛盾，缺乏逻辑或经验支撑。简单来说，就像 AI 在“一本正经地胡说八道”。

文章中列举了 AI 幻觉的几种表现形式：
- 事实性幻觉： AI 生成的内容与客观事实不符。例如，AI 错误地回答“谁是第一个登上月球的人？”
- 语义性幻觉： AI 对输入信息的语义理解出现偏差。例如，用户要求 AI 翻译“What is the capital of France?”，AI 却回答了“法国的首都是巴黎”。
- 上下文幻觉： AI 忽略了上下文信息。例如，在一段对话中，AI 首先说“今天天气晴朗”，然后又说“记得带伞，今天有雨”。
- 逻辑性幻觉： AI 生成的内容存在逻辑矛盾。例如，AI 在做数学题时，推理步骤正确，但最终答案却是错误的。
二、AI 幻觉产生的原因

文章从多个方面分析了 AI 幻觉产生的原因，将其比喻为多米诺骨牌效应，环环相扣：
- 数据质量的“陷阱”：
  - 信息污染： 训练数据中包含虚假信息，AI 可能会将其当作“真理”。
  - 偏见陷阱： 训练数据存在偏见，AI 可能会将其“内化”，并在输出内容时表现出来。
  - 知识断层： 训练数据缺乏某个领域的知识，或知识更新不及时，AI 在回答相关问题时就可能“抓瞎”，只能靠“编造”来应付。
- 模型自身的能力缺陷：
  - 结构简单，理解力不足： AI 模型的结构过于简单，理解能力有限，容易出现误解或曲解。
  - 注意力不集中，抓不住重点： AI 模型在处理信息时，可能会忽略重要的信息，而过度关注无关的信息，导致输出内容“文不对题”。
  - 推理能力不足，逻辑混乱： AI 模型缺乏推理能力，可能生成逻辑混乱的文本，甚至自相矛盾。
- 训练方法的缺陷：
  - 学习模式单一，缺乏灵活性： 传统的 AI 训练方法缺乏灵活性，导致模型在面对新的、未见过的样本时，容易“不知所措”，只能根据已有的知识进行猜测，从而产生幻觉。
  - 过度依赖“标准答案”，缺乏创造力： AI 模型在训练过程中过度依赖“标准答案”，会限制其创造力，导致其在面对开放性问题时，无法生成新颖的、有创意的答案。
- 推理过程的随机性： AI 模型在生成内容时，通常会根据概率分布来选择最有可能出现的词语或像素，这种随机性虽然可以增加 AI 模型的创造力和多样性，但也可能导致 AI 产生“口误”。
三、AI 幻觉的风险

AI 幻觉看似“小错误”，但在实际应用中可能带来巨大风险：
- 误导用户： AI 幻觉会导致用户获取错误信息，从而做出错误判断。
- 传播虚假信息： AI 幻觉可能被用于制造和传播虚假信息，误导公众，影响社会稳定。
- 损害 AI 系统的可信度： AI 幻觉会降低用户对 AI 系统的信任度，阻碍 AI 技术推广和应用。
四、AI 幻觉与人类认知偏差的比较

文章将 AI 幻觉与人类认知偏差进行了比较，指出两者既有相似之处，也有本质区别：
- 相似之处： 两者都指向对信息的扭曲或误解，都可能导致信息偏差和逻辑错误。
- 本质区别： 人类认知偏差根源于人类的心理和生理机制，而 AI 幻觉源于 AI 系统的技术局限性。
五、应对 AI 幻觉的技术手段

为了“驯服” AI 幻觉，研究人员开发了多种技术手段：
- 数据“体检”： 为 AI 模型提供“干净”、“健康”的训练数据，包括数据清洗和数据增强。
- “改造大脑”： 优化 AI 模型本身，包括模型编辑和提示工程。
- “知识外挂”： 为 AI 模型提供外部知识的支持，例如检索增强生成 (RAG) 技术。
- “对抗训练”： 让 AI 模型在训练过程中就接触到“恶意”样本，并学会如何识别和抵抗它们。
- 精准“操控”： 利用“提示词工程”，用精准指令来引导 AI 生成更可靠的内容。
六、AI 幻觉无法完全避免

尽管有多种应对措施，但 AI 幻觉无法从根本上避免，这源于 AI 技术本身的局限性：
- AI 的知识来源于数据： AI 的知识无法超越其训练数据的范围。
- AI 的推理能力有限： AI 无法像人类一样进行无限的推理和联想。
七、AI 幻觉的另一面：意外的惊喜

AI 幻觉也可能为我们带来意想不到的惊喜：
- 激发人类创造力： AI 幻觉有时会产生一些新颖、奇特、甚至超越人类想象力的内容，为艺术创作和科学研究提供灵感。
- 加速技术进步： AI 幻觉的出现，也反映了 AI 技术发展过程中的试错过程，每一次幻觉，都是 AI 模型的一次“学习”和“成长”。
八、与 AI 共舞：在挑战中寻求机遇

AI 幻觉是一把双刃剑，既带来风险，也蕴藏机遇。
- 人类的智慧：引导 AI 向善： 我们需要制定 AI 伦理规范，加强 AI 监管，提升公众的 AI 素养，引导 AI 技术健康发展。
- AI 的未来：谨慎的乐观： 我们需要辩证地看待 AI 幻觉，在积极探索 AI 的无限可能的同时，也要保持谨慎的态度，时刻警惕 AI 潜在的风险。
总而言之，AI 幻觉是人工智能发展道路上不可回避的挑战，但也是推动技术进步和激发人类创造力的机遇。我们需要正视 AI 幻觉，积极探索应对策略，并以负责任的态度引导 AI 技术发展，让 AI 真正造福人类社会。
2024 年 6 月 20 日
奥运竞技场：评估超级智能 AI 的多学科认知推理能力
引言

近年来，随着大型语言模型（LLM）和大型多模态模型（LMM）的飞速发展，人工智能（AI）在解决问题和科学发现（即 AI4Science）方面的认知推理能力逐渐显现，展现出与人类智慧相媲美的潜力。为了全面评估当前模型在认知推理能力方面的表现，我们推出了“奥运竞技场” (OlympicArena) 基准测试，它包含了 11,163 个双语问题，涵盖了文本和文本-图像混合两种模式。这些挑战涵盖了七个领域和 62 个国际奥林匹克竞赛，并经过严格审查以确保数据泄露问题。我们认为，奥林匹克竞赛中的问题是评估 AI 认知推理能力的理想选择，因为它们具有复杂性和跨学科性，这对解决复杂的科学挑战和促进发现至关重要。

除了使用仅答案的标准评估不同学科的表现外，我们还从多个角度进行了详细的实验和分析。我们深入研究了模型的认知推理能力、它们在不同模式下的表现，以及它们在过程级评估中的结果，这对于需要复杂推理和长篇解决方案的任务至关重要。我们广泛的评估结果表明，即使是像 GPT-4o 这样先进的模型，其总体准确率也仅为 39.97%（数学为 28.67%，物理为 29.71%），这说明了当前 AI 在复杂推理和多模态整合方面的局限性。

通过“奥运竞技场”，我们旨在推动 AI 向超级智能发展，使其能够应对科学及其他领域中更复杂的挑战。我们还提供了一套全面的资源来支持 AI 研究，包括基准数据集、开源标注平台、详细的评估工具以及具有自动提交功能的排行榜。

为什么选择奥林匹克竞赛问题？

奥林匹克竞赛问题之所以成为评估 AI 认知推理能力的理想选择，主要有以下几个原因：
- 复杂性: 这些问题通常涉及多个学科的概念和原理，需要模型能够进行综合性的分析和推理。
- 跨学科性: 许多问题需要将不同学科的知识整合在一起，例如物理学和数学的结合，这考验了模型的知识迁移能力。
- 创造性: 这些问题往往需要模型能够进行抽象思考和创造性解决问题，这与人类的认知推理能力密切相关。
“奥运竞技场” 的设计

“奥运竞技场” 基准测试具有以下特点：
- 多学科: 涵盖数学、物理、化学、生物、地理、天文学和计算机科学七个学科，共计 34 个专业分支。
- 多模态: 包括文本和文本-图像混合两种模式，更接近现实世界的应用场景。
- 双语: 提供英语和中文版本，方便全球范围内的研究人员使用。
- 过程级评估: 除了评估最终答案的正确性，还评估模型推理过程的合理性和有效性，更全面地评估模型的认知推理能力。
实验结果

我们对各种 LLM 和 LMM 进行了实验，包括 GPT-4o、LLaVa-NeXT 等模型。实验结果表明：
- 当前 AI 模型在解决复杂的多学科问题方面仍然存在局限性。 即使是最先进的模型 GPT-4o，其总体准确率也仅为 39.97%，而其他开源模型的准确率甚至低于 20%。
- LMM 在处理复杂的多学科问题时，在利用视觉信息方面表现不佳。 许多 LMM 在处理图像时没有表现出比文本模式更好的性能，甚至一些模型的性能还有所下降。
- 过程级评估结果表明，大多数模型能够正确执行一些推理步骤，即使最终答案是错误的。 这表明模型在认知推理方面具有很大的潜力。
未来展望

“奥运竞技场” 基准测试为评估 AI 的认知推理能力提供了一个新的平台，它将推动 AI 在科学和工程领域的发展。未来，我们希望能够：
- 开发更强大的 AI 模型，能够更好地解决复杂的多学科问题。
- 改进 LMM 的视觉信息处理能力，使其能够有效地利用视觉信息进行推理。
- 探索更有效的过程级评估方法，更准确地评估模型的推理过程。
参考文献

[1] Zhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu. OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI. arXiv preprint arXiv:2406.12753, 2024.

[2] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.

[3] GPT-4v(ision) system card. 2023. URL https://api.semanticscholar.org/CorpusID:332263218031.

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一个名为”OlympicArena”的基准测试，旨在全面评估和推进人工智能（AI）在认知推理能力方面的表现。具体来说，它试图解决的问题包括：
1. 现有AI模型在复杂推理任务上的限制：尽管大型语言模型（LLMs）和大型多模态模型（LMMs）在某些领域表现出色，但在解决跨学科、需要高级认知推理能力的复杂问题上仍有局限。
2. 缺乏全面的评估机制：现有的基准测试多关注于知识密集型任务或简单的概念应用，缺乏对AI模型在更高层次认知推理能力上的系统和细粒度评估。
3. 多学科和多模态挑战的缺乏：目前的基准测试主要集中在单一学科或文本模态，而现实世界的问题往往涉及多个领域，并且可能需要处理文本和图像等多种模态的信息。
4. 数据泄露问题的检测和解决：随着预训练语料库规模的增加，检测潜在的基准泄露成为一个重要问题，这可能会影响模型评估的准确性和可靠性。
5. 推动AI向超智能（superintelligence）发展：通过构建一个具有挑战性的基准测试，激励AI研究社区开发能够处理更复杂科学挑战的模型，并在科学和其他领域实现应用。
为了解决这些问题，论文提出了”OlympicArena”，这是一个包含11,163个双语问题的综合基准测试，覆盖了七个领域和62个国际奥林匹克竞赛级别的挑战。该基准测试不仅关注答案的正确性，还包括对AI模型解题过程的详细评估，以深入理解其认知推理的深度和可靠性。

Q: 有哪些相关研究？

A: 论文中提到了多个与AI基准测试和认知推理相关的研究工作。以下是一些主要的相关研究：
1. 大型语言模型（LLMs）和大型多模态模型（LMMs）：这些模型在人工智能的发展历程中具有里程碑意义，它们在处理复杂任务时展现出了显着的认知推理能力。
2. 国际数学奥林匹克（IMO）：论文中提到了使用AI代理解决类似于国际数学奥林匹克中出现的复杂挑战。
3. AI4Science：指利用AI推动科学发现的研究领域，论文中提到了AI在这一领域的应用。
4. 现有基准测试：如MMLU、AGIEval、C-Eval和CMMLU等，这些基准测试推动了语言模型在多学科、多语言和知识密集型任务上的能力评估。
5. 特定学科的基准测试：例如GSM8K（针对小学数学推理问题）、MATH（引入高中级数学竞赛任务）等。
6. 多学科大学级别科目和多模态任务的基准测试：如JEEBench、SciBench、GPQA和MMMU等，这些基准测试扩展了评估范围，包括了多学科大学级别的科目。
7. 国际奥林匹克竞赛问题：论文中提到了使用国际奥林匹克竞赛级别的问题来挑战AI系统。
8. 算法挑战：涉及使用算法解决复杂问题的挑战，如论文中提到的一些相关工作。
9. 过程级评估：一些研究工作开始关注模型的中间推理步骤，例如使用过程监督来训练更好的奖励模型。
10. 数据泄露检测：随着预训练语料库规模的增加，检测潜在的基准泄露成为一个重要问题，论文中提到了一些相关工作。
这些相关研究为构建”OlympicArena”基准测试提供了理论和实践基础，并帮助确定了评估AI认知推理能力的需求和方法。论文通过比较和分析这些相关工作，展示了”OlympicArena”在评估AI能力方面的创新和全面性。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决AI在复杂认知推理任务上的评估问题：
1. 创建综合基准测试：“OlympicArena”是一个包含11,163个双语问题的综合基准测试，覆盖了数学、物理、化学、生物学、地理、天文学和计算机科学等七个领域的62个不同的奥林匹克级别的竞赛。
2. 多模态和多学科问题：基准测试包括文本和图像混合的问题，以模拟现实世界中的复杂场景，并要求AI模型能够处理和推理跨学科的问题。
3. 细粒度评估机制：除了传统的答案正确性评估（答案级评估），论文还引入了过程级评估，以深入分析AI模型的推理过程和步骤，从而更全面地理解其认知推理能力。
4. 数据泄露检测：为了确保评估的有效性和公正性，论文进行了数据泄露检测实验，以验证基准测试的难度和挑战性。
5. 实验和分析：论文对现有的顶级语言模型（包括专有模型和开源模型）进行了一系列的实验，从答案级和过程级两个角度进行了全面的评估。
6. 资源提供：为了支持AI研究，论文提供了一套全面的资源，包括基准数据集、开源注释平台、详细的评估工具和具有自动提交功能的排行榜。
7. 认知推理能力的分类：论文将认知推理能力细分为逻辑推理和视觉推理两大类，进一步将它们分为多个子类别，以便更细致地评估AI模型在不同认知推理方面的能力。
8. 错误分析和数据泄露检测：通过分析模型的错误和进行数据泄露检测，论文揭示了当前AI模型在复杂推理任务上的局限性，并为改进训练策略和提升认知推理能力提供了见解。
通过这些方法，论文不仅提出了一个全面的评估框架，而且通过实验结果揭示了即使是最先进的模型（如GPT-4o）在处理复杂、多学科问题时也存在显着的局限性，从而为AI的进一步发展提供了明确的方向和目标。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估不同大型语言模型（LLMs）和大型多模态模型（LMMs）在“OlympicArena”基准测试上的表现。以下是实验的主要方面：
1. 实验设置：设计了三种不同的设置来评估模型：多模态（interleaved text and images）、图像-标题（image-caption）和纯文本（text-only）。
2. 模型选择：评估了包括专有模型（如GPT-4o）和开源模型（如LLaVa-NeXT）在内的多种LLMs和LMMs。
3. 零样本提示（Zero-shot Prompts）：为了减少偏差并公平评估模型，使用了零样本提示，并针对每种答案类型定制了输出格式。
4. 答案级评估（Answer-level Evaluation）：结合了基于规则的方法和基于模型的方法来评估各种类型的问题。对于固定答案的问题，使用规则匹配；对于编程任务，使用pass@k指标；对于难以用规则匹配评估的问题，使用GPT-4V作为评估器。
5. 过程级评估（Process-level Evaluation）：对模型生成的解决方案进行结构化步骤格式的转换，并使用GPT-4V对每个步骤的正确性进行评分。
6. 主要结果：展示了不同模型在“OlympicArena”上的表现，包括整体准确率和各个学科的准确率。
7. 细粒度分析（Fine-grained Analysis）：基于不同模态和推理能力对实验结果进行了更深入的评估和分析。
8. 过程级评估结果分析：通过比较过程级评估和答案级评估的一致性，以及分析错误步骤的位置分布，来洞察模型在认知推理上的潜力和挑战。
9. 错误分析：通过人工评估员对GPT-4V的不正确响应进行分析和注释，以识别错误的原因。
10. 数据泄露检测：使用N-gram预测准确率来检测预训练语料库中可能的基准泄露，并分析了不同模型在泄露实例上的表现。
这些实验提供了对当前AI模型在复杂认知推理任务上能力的全面评估，并揭示了它们在处理多学科、多模态问题时的局限性和潜力。

Q: 有什么可以进一步探索的点？

A: 尽管”OlympicArena”基准测试为评估AI的认知推理能力提供了一个全面的平台，但论文也指出了一些局限性，并提出了未来工作的几个方向，这些可以作为进一步探索的点：
1. 改进基准测试：通过社区反馈不断优化和改进基准测试，减少其中的噪声问题。
2. 年度更新：定期更新基准测试版本，以应对数据泄露问题，并确保评估的公正性和有效性。
3. 扩展评估范围：目前基准测试主要集中在问题解决能力上，未来可以扩展到评估AI在更广泛的复杂任务和实际应用中的表现，如AI4Science和AI4Engineering。
4. 增强模型的多模态能力：研究和开发能够更好地处理和集成多模态信息（文本、图像等）的模型。
5. 提升过程级评估：进一步研究和改进过程级评估方法，以便更准确地评估模型的推理过程和步骤。
6. 深入分析错误类型：通过对模型错误进行更深入的分类和分析，识别当前模型在认知推理上的薄弱环节。
7. 开发新的评估工具和方法：为了更全面地评估AI的能力，可以开发新的工具和方法，包括更先进的数据泄露检测工具。
8. 探索模型的可解释性：提高模型的可解释性，以便更好地理解其决策过程和推理逻辑。
9. 优化模型训练策略：基于基准测试的发现，探索新的模型训练策略，以提高模型在复杂推理任务上的性能。
10. 促进跨学科应用：研究如何将AI的认知推理能力应用于跨学科领域，解决现实世界中的复杂问题。
11. 伦理和社会影响：随着AI能力的提升，需要持续关注其潜在的伦理和社会影响，并进行相应的研究和讨论。
12. 模型鲁棒性：研究如何提高模型在面对错误或不完整信息时的鲁棒性。
这些探索点不仅可以推动AI技术的发展，还有助于确保AI技术的负责任使用和对社会的积极贡献。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了”OlympicArena”，一个旨在全面评估和提升人工智能（AI）在认知推理能力方面的基准测试平台。以下是论文的主要内容总结：
1. 背景与动机：随着大型语言模型（LLMs）和大型多模态模型（LMMs）的发展，AI在认知推理方面展现出巨大潜力。然而，现有的基准测试多关注于知识密集型任务，缺乏对高级认知推理能力的评估。
2. OlympicArena基准测试：为了填补这一空白，作者提出了”OlympicArena”，一个包含11,163个双语问题的综合基准测试，覆盖数学、物理、化学、生物学、地理、天文学和计算机科学等七个领域。
3. 多模态和多学科问题：基准测试包括文本和图像混合的问题，以模拟现实世界的复杂性，并要求AI模型能够处理跨学科的问题。
4. 细粒度评估：除了答案正确性的评估，还包括过程级评估，以深入分析AI模型的推理过程。
5. 实验与分析：论文对现有的顶级语言模型进行了实验，包括专有模型（如GPT-4o）和开源模型（如LLaVa-NeXT）。实验结果表明，即使是最先进的模型，在处理复杂问题时也存在显着的局限性。
6. 认知推理能力的分类：将认知推理能力细分为逻辑推理和视觉推理两大类，并进一步细分为多个子类别，以便更细致地评估AI模型的能力。
7. 错误分析与数据泄露检测：通过分析模型的错误和进行数据泄露检测，揭示了AI模型在认知推理任务上的不足，并为改进模型提供了见解。
8. 资源提供：为了支持AI研究，论文提供了基准数据集、开源注释平台、评估工具和具有自动提交功能的排行榜。
9. 未来工作：论文提出了未来工作的方向，包括改进基准测试、扩展评估范围、增强模型的多模态能力等。
10. 社会影响考量：讨论了随着AI能力提升可能带来的伦理和道德风险，强调了进行集体监管的必要性。
“OlympicArena”基准测试的推出，旨在推动AI向超智能发展，并在科学和其他领域实现更广泛的应用。论文通过一系列实验和分析，展示了AI在复杂认知推理任务上的现状和挑战，并为未来的研究提供了明确的方向。
2024 年 6 月 20 日
让AI成为你的写作助手：用大模型生成不同阅读难度的教育材料
你是否曾为如何让学生更容易理解复杂的教育材料而烦恼？或者你是否需要将原本复杂的文字简化，使其更易于大众理解？现在，借助强大的语言模型 (LLM)，我们可以实现自动生成不同阅读难度的教育材料，让学习变得更轻松！

这篇文章将带你走进一个全新的领域——文本难度等级生成，并探讨如何利用LLM来实现这一目标。

文本难度等级生成：让学习更有效

众所周知，学生更容易从与自身阅读水平相匹配的材料中学习。过难的材料会造成理解障碍，而过简单的材料则无法带来有效提升。因此，根据学生的不同阅读能力生成不同难度的教育材料，对于提高学习效率至关重要。

传统的文本难度等级调整方法通常需要人工进行反复编辑，以确保修改后的文本符合目标难度标准。然而，这个过程并不容易，尤其是对于年轻的学习者而言，需要考虑更多因素，例如词汇的解码难度、信息量以及其他语言特征等。

文本难度等级生成任务的目标是：给定一篇源文本及其阅读难度等级，以及目标阅读难度等级，将源文本改写成符合目标难度等级的文本，同时保留其原意。

LLM助力文本难度等级生成：潜力与挑战

近年来，LLM在文本生成领域取得了显著进展，也为文本难度等级生成任务提供了新的可能性。

研究人员使用GPT-3.5、LLaMA-2 70B和Mixtral 8x7B这三种流行的LLM，对100篇教育材料进行了测试，发现通过少样本提示 (few-shot prompting) 可以显著提高LLM在文本难度等级调整和信息保留方面的表现。

其中，LLaMA-2 70B在实现目标难度范围方面表现更出色，而GPT-3.5则在保留原文意思方面表现更优。

然而，人工检查发现了一些问题，例如模型可能会引入错误信息，例如修改引文或出现事实性错误，以及文本编辑不均匀，导致文章的阅读难度不一致。这些问题提醒我们，在使用LLM生成教育材料时，需要谨慎对待，并进行进一步研究，以确保生成内容的质量。

文本难度等级生成：未来的发展方向

尽管LLM在文本难度等级生成方面展现出巨大潜力，但仍需克服一些挑战。
- 文本缩短和扩展： 调整文本难度可能需要缩短或扩展文本。LLM擅长使用高级提示技术（例如Chain-of-Density）来缩短文本，但扩展文本则需要引入新的信息。对于科学和新闻等事实性内容，保持准确性和最小化错误信息至关重要。
- 文本难度等级的局限性： 对于科学材料，尤其是针对年轻学习者的材料，文本难度等级生成可能并不适用于所有难度等级。简单地改写句子或选择常用词语，可能无法有效地改变文本难度。
- 融入教育元素： 教育材料通常包含学习目标，例如语法、词汇、知识等。如何将这些教育元素融入改写后的文本，仍然是一个未解决的挑战。
- 重要信息保留： 内容创作者需要保留特定的信息，例如关键术语、重要句子或特定部分。LLM可以通过提示工程来解决这个问题，但需要开发一个直观的界面，让用户可以突出显示需要保留的文本区域，并验证生成的文本是否符合这些要求。
- 模型偏差： 研究人员发现，当前的LLM存在一些偏差。例如，模型倾向于生成比原文更短的文本，无论目标是简化还是复杂化文本。此外，文本编辑的分布也不均匀，一些段落保持不变，而另一些段落则进行了大幅修改。这种不一致的编辑模式不适合教育材料。
总结：LLM赋能教育内容生成

文本难度等级生成是一个充满挑战但又充满希望的领域。LLM在调整文本复杂性和保留内容意思方面展现出巨大潜力，但仍需进一步研究，以解决教育内容的细微需求，例如信息准确性、学习目标的融入以及关键信息的保留，从而提升文本难度等级生成过程的质量。

相信随着技术的不断发展，LLM将成为教育内容生成的有力工具，为学生提供更优质、更个性化的学习体验。

参考文献：
- [1] Huang, Chieh-Yang, Jing Wei, and Ting-Hao Kenneth Huang. “Generating Educational Materials with Different Levels of Readability using LLMs.” In2Writing 2024, May 11, 2024, Honolulu, Hawii.
- [2] MetaMetrics. 2022. Lexile Framework for Reading Development and Validity Evidence. https://hubsupport.lexile.com/Images/Lexile%20Framework%20for%2020Reading%20Validity%20Evidence_2022.pdf
Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一个名为“分级文本生成”(leveled-text generation)的任务，旨在将教育材料改写成特定的可读性水平，同时保持原有内容的意义不变。具体来说，这项研究试图通过使用大型语言模型（LLMs），如GPT-3.5、LLaMA-2 70B和Mixtral 8x7B，来实现以下目标：
1. 调整可读性：将源文本改写，使其达到预期的可读性水平，这通常通过改变词汇使用、句子结构、句子长度等语言特征来实现。
2. 保持信息：在改写过程中，确保文本的原始意义和信息得到保留。
这项任务的动机是，研究表明学生从与他们阅读能力相匹配的阅读材料中学习更为有效，这样可以在提高和认知负荷之间达到最佳平衡。因此，为学生提供不同复杂度的教育内容是实现更好学习成果的关键步骤。论文中提到，尽管这个过程看起来简单，但准确调整这些元素以达到目标阅读难度实际上是具有挑战性的，尤其是对于年轻学习者，还需要考虑诸如可解码性、信息负载等因素。

此外，论文还强调了在生成教育内容时确保质量的重要性，包括避免引入错误信息和保持文本编辑的一致性。这些发现突出了进一步研究的必要性，以确保生成的教育内容的质量。

Q: 有哪些相关研究？

A: 论文中提到了与分级文本生成任务相关的两个主要研究领域：文本可读性调整和教育内容生成。以下是一些具体的相关研究：
1. 文本可读性调整：
  - S. Bautista 等人通过基于规则的转换和使用简单同义词替换难词来进行文本简化。
  - Bingel 和 Søgaard 使用条件随机场对依赖图进行文本简化，预测压缩和释义。
  - Swain 等人利用 WordNet 模型开发了一种高效的文本简化技术。
  - Alkaldi 和 Inkpen 训练了自己的可读性分类器，并设计了一个基于 GRU 串行到串行模型的强化学习框架。
  - Feng 等人研究了大型语言模型在零样本和少样本学习中的表现。
  - Maddela 等人引入了结合语言规则和神经释义模型的混合方法。
2. 教育内容生成：
  - Leiker 等人调查了使用大型语言模型创建成人学习内容的潜力。
  - MacNeil 等人专注于自动生成计算机科学学习材料。
  - Gao 等人特别研究了大型语言模型在口语学习中的应用。
  - Jury 等人评估了在初级编程课程中使用大型语言模型生成的工作示例。
  - Xiao 等人将大型语言模型应用于生成阅读理解练习。
这些研究为本文提出的分级文本生成任务提供了理论和技术基础，并展示了大型语言模型在教育领域的应用潜力。然而，这些研究大多集中在文本简化或特定类型的教育内容生成上，而本文的研究重点是利用大型语言模型来调整文本的可读性水平，以适应不同阅读能力的学习者。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤来解决分级文本生成任务：
1. 任务定义：首先定义了分级文本生成任务的目标，即在保持原始意义的同时，将给定文本改写为特定的可读性水平。
2. 使用大型语言模型（LLMs）：评估了三种不同的大型语言模型（GPT-3.5、LLaMA-2 70B和Mixtral 8x7B）在零样本学习和少样本学习环境下生成不同可读性水平内容的能力。
3. 数据集构建：创建了一个包含30,000对分级文本的并行数据集，这些文本对共享相同的主题，但写在不同的可读性水平上。
4. 评估指标：使用了多种评估指标，包括平均绝对误差（MAE）、匹配率和方向准确性来衡量文本是否被正确地改写到目标Lexile分数，同时使用BERTScores、语义相似性和归一化编辑距离来评估信息的保留情况。
5. 实验设计：设计了零样本学习和少样本学习的实验，其中少样本学习中包括1次、3次和5次样本的实验，以探索提供示例对模型性能的影响。
6. 结果分析：分析了不同模型在调整可读性和内容保留方面的表现，并进行了手动检查，以识别潜在的问题，如信息误引入和编辑分布的不一致性。
7. 问题识别与讨论：通过手动检查10篇文章，识别了使用这些输出作为教育材料可能存在的问题，并讨论了这些问题。
8. 未来研究方向：基于实验结果和手动检查的发现，提出了未来研究的方向，以解决当前模型的局限性和偏见，提高分级文本生成任务的质量。
通过这些步骤，论文不仅展示了当前大型语言模型在分级文本生成任务上的能力，还指出了需要进一步研究的领域，以确保生成的教育内容的质量。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估和分析分级文本生成任务：
1. 数据集构建：创建了一个并行数据集，包含30,000对分级文本，这些文本对覆盖相同的主题但具有不同的可读性水平。
2. 零样本学习（Zero-shot Learning）：在没有提供任何示例的情况下，仅通过定义Lexile分数和提供源文本、源Lexile分数以及目标Lexile分数来测试模型的性能。
3. 少样本学习（Few-shot Learning）：在提供来自训练集的实际示例的情况下，教导模型特定可读性水平的文本应该是什么样子。实验中尝试了1次、3次和5次样本的少样本学习。
4. 性能评估：使用以下指标来评估模型性能：
  - 平均绝对误差（MAE）：目标Lexile分数和结果Lexile分数之间的绝对偏差。
  - 匹配率：结果Lexile分数是否在目标分数的±50范围内。
  - 方向准确性：结果Lexile分数是否朝着预期的方向（更容易或更难）变化。
  - BERTScores：评估内容保留的语义相似性。
  - 归一化编辑距离：评估源文本和结果文本之间的内容保留。
5. 结果分析：分析了不同模型在调整可读性和内容保留方面的表现，并识别了模型生成文本的倾向性，例如生成的文本通常比预期的更难。
6. 手动检查：对测试集中的10个样本进行了手动检查，以识别潜在问题，如信息误引入和编辑分布的不一致性。
7. 详细检查和讨论：对生成的文本进行了深入分析，讨论了使用这些输出作为教育材料可能存在的问题，并探讨了解决这些问题的方法。
这些实验的目的是为了创建分级文本生成任务的基准，并探索大型语言模型在这一任务上的潜力和局限性。通过这些实验，论文不仅展示了当前模型的性能，还为未来的研究提供了方向。

Q: 有什么可以进一步探索的点？

A: 根据论文的结论和讨论部分，以下是一些可以进一步探索的点：
1. 改进内容准确性：研究如何减少在文本简化或复杂化过程中引入的错误信息，特别是对于事实性内容，如科学和新闻文章。
2. 集成学习目标：探索如何在重写的文本中集成特定的教育目标，例如语法、词汇或知识点。
3. 保留关键信息：开发方法或工具，允许用户指定在文本重写过程中应保持不变的特定信息，如关键术语或重要句子。
4. 解决模型偏差：研究当前模型倾向于生成比原始文本更短的文本的原因，并探索如何减少这种偏差。
5. 提高编辑一致性：研究如何使模型在文本重写过程中进行更一致的编辑，避免出现某些段落未改变而其他段落大幅修改的情况。
6. 适应不同学习者的需求：研究如何根据不同学习者的具体需求定制文本难度，包括考虑年龄、背景知识和学习风格。
7. 开发更复杂的LLMs：考虑开发或改进LLMs，使其能够处理更复杂的文本重写任务，例如需要使用年龄适宜的类比或视觉辅助来解释复杂概念。
8. 用户界面设计：设计一个用户友好的界面，使用户能够轻松地指定文本中应保持不变的部分，并验证生成的文本是否满足这些标准。
9. 评估和改进模型的可解释性：提高模型在文本重写过程中的透明度和可解释性，帮助用户理解模型如何做出特定的编辑决策。
10. 跨学科研究：与其他学科的专家合作，例如教育学、心理学和认知科学，以更全面地理解文本难度对学习效果的影响。
11. 大规模实验和评估：在更大的数据集上进行实验，以验证模型性能的一致性，并在多样化的教育环境中评估生成文本的有效性。
这些探索点可以帮助研究者们提高分级文本生成任务的性能和质量，从而更好地服务于教育领域的需求。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点：
1. 问题定义：论文提出了分级文本生成任务，目的是将教育材料改写成特定的可读性水平，同时保持原有内容的意义。
2. 研究背景：说明了学生从与他们阅读能力相匹配的阅读材料中学习更有效，因此需要为不同阅读水平的学生提供相应的教育内容。
3. 方法论：评估了三种大型语言模型（GPT-3.5、LLaMA-2 70B和Mixtral 8x7B）在零样本学习和少样本学习环境下的性能。
4. 数据集：构建了一个包含30,000对分级文本的并行数据集，用于训练和评估模型。
5. 评估指标：使用了平均绝对误差（MAE）、匹配率、方向准确性、BERTScores、语义相似性和归一化编辑距离等指标来评估模型的改写效果。
6. 实验结果：发现少样本学习显着提高了模型在可读性调整和信息保持方面的表现。LLaMA-2 70B在调整可读性方面表现最佳，而GPT-3.5在保持原文意义方面更为出色。
7. 问题识别：通过手动检查，发现了一些潜在问题，如信息误引入、编辑分布不均等。
8. 未来研究方向：基于实验结果和手动检查的发现，提出了未来研究的方向，包括提高内容准确性、集成学习目标、保留关键信息、解决模型偏差等。
9. 结论：论文强调了使用大型语言模型自动化教育内容创作的潜力和挑战，并指出了进一步研究的必要性。
整体而言，这篇论文为分级文本生成任务提供了一个基准，并展示了大型语言模型在教育领域的应用潜力，同时也指出了需要进一步解决的问题和挑战。
2024 年 6 月 20 日