博客

开源模型大比拼：Mixtral、Llama 3、Phi-3、OpenELM 谁更胜一筹？
大型语言模型（LLM）的开源浪潮正在席卷全球，各种新模型层出不穷，让人眼花缭乱。最近，Mistral AI 的 Mixtral 8x22B、Meta AI 的 Llama 3、微软的 Phi-3 以及苹果的 OpenELM 等新模型纷纷发布，引发了广泛关注。究竟这些新模型有哪些亮点？它们在性能、效率和应用场景方面又有哪些区别呢？

本文将带你深入了解这四款新模型，并探讨它们在开源 LLM 领域中的地位和未来发展方向。

Mixtral 8x22B：模型越大越好？

Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家（MoE）模型，采用宽松的 Apache 2.0 开源许可证。与今年早些时候发布的 Mixtral 8x7B 相比，新模型的参数量大幅提升，达到了 8x22B。

Mixtral 8x22B 的核心思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。MoE 的优势在于能够在保持模型性能的同时，降低计算资源需求。

Mixtral 8x22B 在 MMLU 基准测试中表现出色，并且在参数量和计算资源需求方面取得了平衡。

Llama 3：数据越多越好？

Meta AI 的 Llama 3 模型延续了 Llama 系列的辉煌，其训练数据量大幅增加，达到了 15 万亿 token，远超 Llama 2 的 2 万亿 token。

Llama 3 的架构与 Llama 2 几乎一致，主要区别在于词汇库更大，以及更小型模型使用了分组查询注意力。

Llama 3 的出色表现得益于其庞大的训练数据，即使在超过 15 万亿 token 的规模上，模型仍然能够获得进一步提升。

Phi-3：数据质量更重要？

微软的 Phi-3 模型则更加注重数据质量，其训练数据量仅有 3.3 万亿 token，不到 Llama 3 的五分之一。

Phi-3 的秘诀在于使用了严格过滤的网络数据和合成数据，从而在数据质量上取得了优势。

Phi-3-mini 模型的参数量仅有 3.8B，却在基准测试中超越了 Llama 3 8B 模型，展现出其在数据质量方面的优势。

OpenELM：面向移动设备的轻量级模型

苹果公司发布的 OpenELM 模型套件旨在提供可在移动设备上部署的小型 LLM。OpenELM 拥有 4 种不同尺寸的模型，参数量分别为 270M、450M、1.1B 和 3B。

OpenELM 的亮点在于其详细分享了架构、训练方法和训练数据，并且在性能上超越了 OLMo，尽管其训练数据量更少。

OpenELM 的逐层扩展策略是一种新颖的设计，它可以有效地提升模型的效率，使其更适合在移动设备上运行。

DPO vs PPO：哪种对齐方法更强大？

除了新模型的发布，一篇名为《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》的论文探讨了 DPO 和 PPO 在 LLM 对齐方面孰优孰劣的问题。

论文的结论是：PPO 通常优于 DPO，并且 DPO 更容易受到分布外数据的影响。

四月发布的其它有趣论文

除了上面提到的新模型和论文，四月还涌现了许多其他值得关注的研究成果，例如：
- KAN（Kolmogorov–Arnold Networks）模型，一种新的 MLP 替代方案，在准确度、神经扩展性能和可解释性方面具有优势。
- RAG（Retrieval-Augmented Generation）模型的综述，全面总结了检索增强型 LLM 的组件、结构、应用和评估方法。
- LoRA（Low-Rank Adaptation）技术，一种参数高效型微调技术，可以显著提升模型性能。
- FILM-7B 模型，使用信息密集型方法训练，可以解决 LLM 的“中间丢失”问题。
- LayerSkip 技术，可以加快 LLM 的推理速度。
- 等等。
总结：开源 LLM 领域百花齐放

四月发布的这些新模型和论文，展现了开源 LLM 领域的蓬勃发展。Mixtral、Llama 3、Phi-3 和 OpenELM 各具特色，为不同应用场景提供了更多选择。

未来，我们期待看到更多更强大、更可靠、更易用的开源 LLM 模型，推动人工智能技术走向更加成熟和广泛的应用。
2024 年 6 月 18 日
让大型语言模型更懂你：如何训练更可靠的奖励模型？
大型语言模型（LLM）正在改变世界，但要让它们真正为我们所用，就需要让它们理解人类的意图和价值观。强化学习从人类反馈（RLHF）框架应运而生，它通过训练一个奖励模型来评估LLM的输出，并引导LLM朝着人类期望的方向发展。

然而，现有的奖励模型在面对新奇的提示和响应时，往往表现出泛化能力不足的问题。这会导致一个令人头疼的现象：奖励过度优化。简单来说，就是模型过度追求奖励，反而导致实际表现下降。

为了解决这个问题，本文将介绍一种名为可泛化奖励模型（GRM）的新方法，它通过正则化隐藏状态来提升奖励模型的泛化能力。

奖励模型：让LLM知道什么是好，什么是坏

奖励模型就像一个评判者，它根据人类的偏好，对LLM生成的文本进行打分。打分越高，说明LLM的输出越符合人类的期望。

通常，奖励模型的训练基于成对的反馈数据，即给定同一个提示，人类会对两个不同的响应进行比较，并给出自己的偏好。通过学习这些偏好数据，奖励模型可以学习到哪些文本是好的，哪些文本是不好的。

奖励过度优化：模型的“聪明反被聪明误”

虽然奖励模型的初衷是引导LLM更符合人类的期望，但现实情况往往事与愿违。当奖励模型过度优化时，它可能会学到一些“错误的模式”，导致LLM的输出虽然在奖励模型看来很优秀，但实际上却偏离了人类的真实意图。

例如，如果奖励模型只关注文本的长度，那么LLM可能会生成一些毫无意义的长篇大论，只是为了获得更高的奖励。

可泛化奖励模型（GRM）：让模型更具“举一反三”的能力

GRM的核心思想是通过正则化隐藏状态来提升奖励模型的泛化能力。隐藏状态是LLM内部处理信息的中间结果，它包含了模型对文本的理解。

GRM保留了LLM的语言模型头部，并通过引入一系列文本生成损失来约束隐藏状态的文本生成能力，同时学习一个奖励头部来预测文本的奖励分数。

文本生成损失：让模型保持“语言能力”

文本生成损失是用来评估LLM生成文本质量的指标。GRM通过引入文本生成损失，可以确保隐藏状态在学习奖励的同时，不会丢失其原本的语言能力。

GRM的优势：高效、稳定、可靠

GRM具有以下优势：
- 高效：GRM不需要训练多个奖励模型，也不需要额外的训练数据。
- 稳定：GRM对不同类型的正则化方法都具有良好的适应性。
- 可靠：GRM能够有效地缓解奖励过度优化问题，并对训练数据中的噪声具有较强的鲁棒性。
实验结果：GRM的优异表现

实验结果表明，GRM在各种评估任务中都取得了优异的成绩：
- 泛化能力强：GRM在面对新奇的提示和响应时，仍然能够保持较高的准确率。
- 鲁棒性强：即使在训练数据有限或存在噪声的情况下，GRM仍然能够保持良好的性能。
- 有效缓解奖励过度优化：GRM能够有效地引导LLM朝着人类期望的方向发展，并避免出现奖励过度优化的问题。
未来展望：更智能、更可靠的奖励模型

GRM为构建更智能、更可靠的奖励模型开辟了新的道路。未来，我们可以进一步探索以下方向：
- 更精细化的正则化方法：设计更精细化的正则化方法，以更好地约束隐藏状态的文本生成能力。
- 多任务学习：将奖励学习与其他任务结合起来，例如文本摘要、机器翻译等，以提升奖励模型的泛化能力。
- 可解释性：研究奖励模型的可解释性，以便更好地理解模型的决策过程。
参考文献
- Yang, R., Ding, R., Lin, Y., Zhang, H., & Zhang, T. (2024). Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs. arXiv preprint arXiv:2406.10216.
通过不断探索和改进，我们相信奖励模型将成为LLM与人类价值观对齐的关键，推动LLM走向更加智能、更加可靠的未来。

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何提高大型语言模型（LLMs）在强化学习从人类反馈（RLHF）框架中，通过训练得到的奖励模型（reward models）对未见提示（unseen prompts）和响应（responses）的泛化能力。具体来说，论文指出当前的奖励模型在面对分布偏移（distribution shifts）时泛化能力有限，这可能导致过度优化（over-optimization）现象，即过度优化奖励结果导致实际性能下降。为了解决这个问题，论文提出了一种新颖的方法，即通过正则化隐藏状态来增强奖励模型对分布偏移的泛化能力。这种方法被称为通用奖励模型（Generalizable Reward Model, GRM），它保留了基础模型的语言模型头部，并引入了一系列文本生成损失来保持隐藏状态的文本生成能力，同时学习与这些隐藏状态相同的奖励头部。通过实验，论文证明了引入的正则化技术显著提高了学习到的奖励模型在多种分布外（OOD）任务上的准确性，并有效缓解了RLHF中的过度优化问题，提供了一个更可靠和强大的偏好学习范式。

Q: 有哪些相关研究？

A: 论文中提到了多个与奖励模型和强化学习从人类反馈（RLHF）相关的研究。以下是一些主要的相关研究：
1. Amodei et al., 2016: 提出了AI安全中的一些具体问题，包括奖励黑客攻击（reward hacking）的概念。
2. Bradley and Terry, 1952: 提出了Bradley-Terry模型，这是一种用于偏好学习的模型，常用于奖励建模。
3. Bai et al., 2022: 研究了如何通过监督式微调（SFT）和RLHF来确保大型模型与人类价值观一致。
4. Ouyang et al., 2022: 探讨了RLHF中奖励模型的泛化问题，并提出了一些解决方案。
5. Gao et al., 2023: 在合成设置中展示了增加奖励模型的大小和训练数据量可以缓解过度优化问题。
6. Coste et al., 2023: 提出了使用集成技术（ensemble techniques）来增强奖励模型的泛化能力。
7. Eisenstein et al., 2023: 研究了奖励模型集成如何帮助缓解过度优化问题。
8. Moskovitz et al., 2023: 提出了一种受限的RLHF方法来对抗奖励模型的过度优化。
9. Zhang et al., 2024b: 提出了一种通过对抗性策略优化来克服奖励过度优化的方法。
10. Kumar et al., 2022: 理论上展示了随机初始化的头部可能会扭曲预训练的特征，从而影响分布外（OOD）性能。
11. Schulman et al., 2017: 提出了近端策略优化（PPO）算法，这是一种在RLHF中常用的策略优化方法。
这些研究为理解奖励模型在RLHF中的挑战和可能的解决方案提供了理论基础和实证研究。论文提出的通用奖励模型（GRM）是在这些现有研究的基础上，针对奖励模型泛化能力和过度优化问题的一种新解决方案。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为**通用奖励模型（Generalizable Reward Model, GRM）**的方法来解决奖励模型在分布偏移情况下泛化能力有限的问题。具体来说，GRM采用了以下关键策略：
1. 保留基础模型的语言模型头部：GRM保留了基础模型的语言模型头部，这样做的目的是为了保持模型在文本生成任务上的能力。
2. 引入文本生成损失作为正则化：GRM通过引入一系列文本生成损失来正则化隐藏状态，这有助于在微调过程中保持模型的文本生成能力，同时学习与隐藏状态相同的奖励头部。
3. 共享隐藏状态的奖励头部和语言模型头部：GRM的结构中，奖励头部和语言模型头部共享相同的隐藏状态，这样的设计使得两者可以协同工作，一方面优化奖励模型以更好地匹配人类偏好，另一方面通过文本生成任务保持模型的语言能力。
4. 定义总体损失函数：GRM的总体损失函数结合了奖励损失和正则化损失，通过一个平衡系数α来调整两者之间的权重。
5. 理论动机：论文从理论上分析了通过考虑对抗性策略来增强奖励模型的鲁棒性，并通过分析优化问题来导出正则化项的潜在形式。
6. 实验验证：论文通过一系列实验验证了GRM在不同分布外（OOD）任务上的有效性，展示了其在不同数据集大小和不同正则化策略下的性能。
7. 缓解过度优化问题：GRM通过其设计有效地缓解了RLHF中的过度优化问题，这通过在最佳n（BoN）采样和近端策略优化（PPO）中的性能提升来证明。
8. 效率和实用性：GRM是一种轻量级且有效的解决方案，它不需要训练多个奖励模型或依赖额外的训练数据，同时提供了不同选择的损失类型以适应不同的内存和计算成本。
通过这些策略，GRM旨在提高奖励模型对未见数据的泛化能力，并在RLHF框架中提供更可靠和鲁棒的偏好学习范式。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估提出的通用奖励模型（GRM）的性能。以下是实验的主要方面：
1. 奖励模型训练：使用Unified-Feedback数据集的不同子集（400K和40K样本）来训练所有奖励模型，并在保留的8K评估集上进行评估。
2. 分布内（In-Distribution, ID）和分布外（Out-of-Distribution, OOD）评估：在ID（Unified-Feedback）和OOD（HHH-Alignment和MT-Bench）数据集上评估不同奖励建模方法的性能。
3. 不同正则化方法的比较：比较了GRM中三种不同的文本生成正则化损失（DPO正则化、DPO无参考模型正则化和SFT正则化）对模型性能的影响。
4. RewardBench评估：在RewardBench数据集上评估GRM和各种基线模型的性能，该数据集包含聊天、聊天-困难、安全和推理任务组。
5. 不同数据集大小的比较：研究了GRM在不同大小的训练数据集（400K和40K）下的性能，以评估其对数据集大小的鲁棒性。
6. RLHF中的评估：
  - Best-of-n Sampling (BoN)：使用不同大小的基础模型（2B和7B）进行BoN采样实验，以评估代理奖励模型选择与金标准奖励一致的最佳响应的能力。
  - Proximal Policy Optimization (PPO)：使用从BoN实验中获得的奖励模型对策略模型（gemma-2b-it）进行微调，以评估GRM在缓解PPO中的过度优化问题方面的有效性。
7. 对标签噪声的鲁棒性：在训练数据中引入25%的标签噪声，以评估GRM在存在噪声的情况下的准确性和鲁棒性。
8. 与现有最先进方法的比较：将GRM的性能与现有的最先进方法（如PairRM、Starling-RM-7B/34B和UltraRM-13B）进行了比较。
这些实验结果表明，GRM在偏好学习和泛化能力方面显著优于基线模型，并且在有限数据集和存在标签噪声的情况下表现出更高的鲁棒性。此外，GRM在缓解RLHF中的过度优化问题方面也显示出了强大的潜力。

Q: 有什么可以进一步探索的点？

A: 尽管论文提出的通用奖励模型（GRM）在提高奖励模型泛化能力和缓解过度优化方面取得了显著成果，但仍有一些潜在的研究方向可以进一步探索：
1. 更大规模的数据集实验：在更大的数据集上测试GRM的性能，以评估其在处理更大规模数据时的可扩展性和效率。
2. 不同领域的应用：探索GRM在不同领域（如医疗、法律、教育等）的应用，以及是否需要针对特定领域进行调整。
3. 奖励模型的解释性：提高奖励模型的可解释性，以便更好地理解模型的决策过程和偏好学习结果。
4. 多任务学习：研究GRM在多任务学习环境中的表现，以及如何平衡不同任务之间的偏好和奖励。
5. 奖励模型的安全性和伦理性：考虑奖励模型可能带来的安全和伦理问题，以及如何设计机制来确保模型的行为符合社会规范。
6. 模型鲁棒性的进一步提升：尽管GRM在一定程度上对标签噪声具有鲁棒性，但可以进一步研究如何提高模型对于输入扰动、对抗性攻击等的鲁棒性。
7. 实时反馈和动态调整：研究GRM在实时反馈环境中的表现，以及如何根据用户反馈动态调整奖励模型。
8. 集成学习：探索将GRM与其他集成学习方法结合，以进一步提高奖励模型的性能和泛化能力。
9. 跨模态任务的奖励建模：将GRM应用于跨模态任务（如图像和文本的联合理解），并研究如何有效地建模和优化跨模态的奖励信号。
10. 模型压缩和加速：研究如何对GRM进行压缩和加速，以便在资源受限的环境中部署和应用。
11. 长期偏好变化的适应性：研究GRM如何适应用户长期偏好的变化，以及如何设计模型以持续学习和适应新的用户反馈。
12. 与人类评估者的协作：探索GRM与人类评估者协作的机制，以提高评估过程的效率和准确性。
这些方向不仅可以推动奖励模型技术的发展，还有助于构建更加智能、可靠和安全的人工智能系统。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容包括以下几个方面：
1. 问题陈述：论文指出在强化学习从人类反馈（RLHF）框架中，现有的奖励模型在泛化到未见提示和响应时存在能力限制，可能导致过度优化现象，从而影响模型性能。
2. 通用奖励模型（GRM）：提出了一种新颖的方法，即通过正则化隐藏状态来增强奖励模型对分布偏移的泛化能力。GRM保留了基础模型的语言模型头部，并通过引入文本生成损失来正则化隐藏状态，同时学习与隐藏状态相同的奖励头部。
3. 理论动机：论文从理论上分析了通过考虑对抗性策略来增强奖励模型的鲁棒性，并导出了正则化项的潜在形式。
4. 实验验证：通过一系列实验，论文验证了GRM在不同分布外（OOD）任务上的有效性，并展示了其在不同数据集大小和不同正则化策略下的性能。
5. 缓解过度优化：GRM在最佳n（BoN）采样和近端策略优化（PPO）中表现出色，有效缓解了RLHF中的过度优化问题。
6. 效率和实用性：GRM是一种轻量级且有效的解决方案，不需要训练多个奖励模型或依赖额外的训练数据，提供了不同选择的损失类型以适应不同的内存和计算成本。
7. 主要贡献：论文的主要贡献包括提出了GRM方法，验证了文本生成正则化对GRM的有效性，以及展示了GRM在多种OOD任务上提高奖励模型准确性的能力，同时在RLHF中一致地提高了性能，有效缓解了过度优化问题。
8. 相关工作：论文还讨论了与奖励建模和RLHF相关的其他研究工作，包括奖励模型集成、策略优化约束、对抗性偏好优化等。
9. 结论：论文得出结论，通过在奖励模型的隐藏状态上引入正则化技术，可以显著提高模型对未见数据的泛化能力，并在RLHF中有效缓解过度优化问题，为开发更鲁棒的奖励模型提供了新的思路。
10. 未来工作：论文提出了一些潜在的研究方向，包括在更大规模数据集上的实验、不同领域的应用、提高模型的解释性、安全性和伦理性考虑等。
2024 年 6 月 17 日
FP8-LM：训练成本降低50%的LLM新时代
大型语言模型 (LLMs) 正在改变我们的世界，但其高昂的训练成本一直是阻碍其发展的重要因素。为了解决这一问题，微软研究人员提出了一种名为 FP8-LM 的新框架，利用 FP8 低精度训练，将训练成本降低了 50%。

FP8：下一代低精度训练的突破

FP8 是下一代低精度数据类型，相比传统的 FP16 和 FP32，它可以实现两倍的速度提升，同时将内存和通信成本降低 50% 至 75%。然而，目前对 FP8 训练的支持非常有限，仅有的框架是 Nvidia Transformer Engine (TE)，但它只将 FP8 应用于矩阵乘法计算，其他操作仍然使用高精度，因此无法充分发挥 FP8 的优势。

FP8-LM：全方位 FP8 训练框架

FP8-LM 框架的核心思想是将 FP8 计算、存储和通信渗透到整个 LLM 训练过程中，实现前向和后向传递都使用 FP8，从而大幅减少系统工作负载。

具体而言，FP8-LM 提供了三个优化级别，逐步整合 FP8 到混合精度和分布式训练中：
- O1 优化： 将 FP8 应用于权重和权重梯度，并在通信中使用 FP8。
- O2 优化： 支持 Adam 和 AdamW 两种优化器使用 FP8。
- O3 优化： 支持 FP8 用于分布式并行训练和 ZeRO 优化器，这对于训练大型模型至关重要。
挑战与解决方案

使用 FP8 训练 LLM 面临着数据下溢或上溢等挑战，以及由于 FP8 数据格式的动态范围和精度有限而产生的量化误差。为了解决这些问题，FP8-LM 提出了两种技术：
- 精度解耦： 将数据精度对权重、梯度、优化器状态等参数的影响解耦，并将较低的精度分配给对精度不敏感的组件。
- 自动缩放： 通过动态调整张量缩放因子，保持梯度值在 FP8 数据格式的表示范围内，从而减轻下溢和上溢情况。
显著的性能提升

实验结果表明，FP8-LM 在各种模型规模上都取得了显著的性能提升：
- 内存使用量减少： 与 BF16 混合精度训练相比，FP8-LM 将内存使用量减少了 27% 至 42%，例如 GPT-7B 减少了 27%，GPT-175B 减少了 42%。
- 通信开销降低： FP8-LM 将权重梯度通信开销降低了 63% 至 65%。
- 训练时间缩短： 在 GPT-175B 模型训练中，FP8-LM 将训练时间减少了 17%，同时内存消耗减少了 21%。
广泛的适用性

FP8-LM 框架不仅适用于预训练阶段，也适用于下游微调任务，包括指令调整和人类偏好对齐。
- 指令调整： FP8-LM 在指令调整任务中取得了与 BF16 相当的性能，同时训练速度提高了 27%。
- 强化学习与人类反馈 (RLHF)： FP8-LM 在 RLHF 中也展现出巨大潜力，可以减少模型权重和优化器状态的内存消耗。
未来展望

FP8-LM 的发布为下一代低精度训练系统树立了新的典范，它将推动大型基础模型的进一步发展。未来，研究人员将继续探索 FP8-LM 的应用，例如：
- 训练更大的 FP8 GPT 模型。
- 将 FP8-LM 应用于多模态大型模型训练。
- 在边缘设备上部署 FP8 LLM。
参考文献
- FP8-LM: Training FP8 Large Language Models
总结： FP8-LM 框架是 LLM 训练领域的一项重大突破，它为降低训练成本、提高训练效率开辟了新的道路，将推动下一代大型基础模型的快速发展。
2024 年 6 月 17 日
FP8-LM: 训练 FP8 大型语言模型，大幅降低训练成本
大型语言模型（LLM）在语言理解和生成方面展现出前所未有的能力，在推理、数学、科学等领域取得了突破性进展。然而，训练 LLM 极其昂贵。例如，PaLM 使用 6,144 个 TPUv4 芯片来训练一个 5400 亿参数的模型，而 GPT-3 1750 亿参数模型的预训练则消耗了数千个 petaflop/s-days 的计算量。这促使人们需要降低 LLM 的训练成本，特别是对于下一代超智能模型的扩展而言。

低精度训练是降低成本最有希望的方向之一，因为它可以提供高速、小内存占用和低通信开销。大多数现有的训练系统，例如 Megatron-LM、MetaSeq 和 Colossal-AI，默认情况下使用 FP32 全精度或 FP16/BF16 混合精度训练 LLM。然而，对于大型模型而言，这并非实现完全精度的必要条件。随着英伟达 H100 GPU 的发布，FP8 正在成为下一代低精度表示的数据类型。理论上，与当前的 16 位和 32 位浮点混合精度训练相比，FP8 可以实现 2 倍的加速、50% – 75% 的内存成本节省和 50% – 75% 的通信节省，这对于扩展下一代基础模型非常有前景。

不幸的是，目前对 FP8 训练的支持很少且有限。唯一可用的框架是英伟达 Transformer Engine (TE)，但它仅将 FP8 用于 GEMM 计算，而仍然使用高精度（例如 FP16 或 FP32）来保留主权重和梯度。因此，端到端的加速、内存和通信成本节省非常有限，无法完全展现 FP8 的威力。为了解决这个问题，我们提出了一种针对 LLM 训练的极度优化的 FP8 混合精度框架。核心思想是将 FP8 计算、存储和通信渗透到大型模型训练的整个过程中，使前向和反向传播都使用低精度 FP8，从而与之前的框架相比大大降低系统工作量。具体来说，我们设计了三个优化级别，利用 FP8 来简化混合精度和分布式训练。这三个级别以增量的方式逐步整合 8 位集体通信、优化器和分布式并行训练。更高的优化级别表示在 LLM 训练期间使用更多 FP8。此外，对于大规模训练，例如在数千个 GPU 上训练的 GPT-175B，我们的框架提供了 FP8 低位并行性，包括张量、流水线和序列并行性，为下一代低精度并行训练铺平了道路。

使用 FP8 训练 LLM 并非易事。挑战源于诸如数据下溢或上溢之类的问题，以及 FP8 数据格式固有的较窄动态范围和降低精度所产生的量化误差。这些挑战会导致训练过程中的数值不稳定和不可逆的偏差。为了解决这些问题，我们提出了两种技术：精度解耦和自动缩放，以防止关键信息的丢失。前者涉及解耦数据精度对权重、梯度、优化器状态等参数的影响，并将降低精度分配给对精度不敏感的组件。后者是通过动态调整张量缩放因子来保留 FP8 数据格式表示范围内的梯度值，从而减轻所有减少通信期间发生的下溢和上溢。

为了验证所提出的 FP8 低精度框架，我们将它应用于 GPT 风格的模型训练，包括预训练和监督微调 (SFT)。实验结果证明了我们 FP8 方法的有效性，产生了巨大的效益，包括实际内存使用量减少 29% 到 39%（例如，GPT-7B 减少 29%，而 GPT-175B 减少 39%）以及与流行的 BF16 混合精度训练方法相比，权重相关的通信开销显着减少 63% 到 65%。在不改变任何超参数（例如学习率和权重衰减）的情况下，使用 FP8 训练的模型在预训练和下游任务中都表现出与使用 BF16 高精度的模型相当的性能。值得注意的是，在 GPT-175B 模型的训练过程中，我们的 FP8 混合精度框架将训练时间缩短了 37%，而 H100 GPU 平台上的内存消耗减少了 42%。更重要的是，随着模型规模的不断扩大，通过使用低精度 FP8 实现的成本降低可以进一步提高，如图 1 所示。

对于微调，我们使用 FP8 混合精度进行指令微调和人类反馈强化学习 (RLHF)，以更好地将预训练的 LLM 与最终任务和用户偏好对齐。具体来说，我们在公开的用户共享指令遵循数据（ShareGPT）上微调预训练模型。使用我们的 FP8 混合精度微调的模型在 AlpacaEval 和 MT-Bench 基准测试中表现出与使用半精度 BF16 的模型相当的性能，同时训练速度提高了 27%。此外，FP8 混合精度在 RLHF 中展现出巨大的潜力，RLHF 是一个在训练过程中需要加载多个模型的过程。通过在训练中使用 FP8，流行的 RLHF 框架 AlpacaFarm 可以使模型权重减少 32%，优化器状态的内存消耗减少 62%。这进一步证明了我们 FP8 低精度训练框架的多功能性和适应性。

我们为推动下一代 FP8 低精度 LLM 训练的设计做出了以下贡献：
- 一个新的 FP8 混合精度训练框架。 它以附加方式逐步解锁 8 位权重、梯度、优化器和分布式训练，使用方便。这个 8 位框架可以作为现有 16/32 位混合精度对应物的简单替代，无需对超参数和训练收据进行任何更改。此外，我们提供了一个 Pytorch 实现，可以在几行代码中实现 8 位低精度训练。
- 一个新的 FP8 训练的 GPT 风格模型系列。 我们将提出的 FP8 方案应用于 GPT 预训练和微调（即 SFT 和 RLHF），并在从 70 亿到 1750 亿参数的各种模型规模上证明了它的潜力。我们为流行的并行计算范式配备了 FP8 支持，包括张量、流水线和序列并行性，使 FP8 可以用于训练大型基础模型。我们开源了第一个基于 Megatron-LM 实现的 FP8 GPT 训练代码库。
我们预计，我们的 FP8 框架的发布将为下一代低精度训练系统建立一个新的范式，该系统专门用于大型基础模型。

FP8 LLM

混合精度已广泛应用于 LLM 训练，以提高计算和内存效率。最流行的混合精度方案是 FP16-FP32 和 BF16-FP32。由于 FP16 的数值范围有限，FP16-FP32 方案已被证明在训练大型模型时存在不稳定性。因此，社区现在通常采用 BF16-FP32 来训练 LLM，例如 Megatron-Turing NLG-530B、Bloom-175B 和 Gopher。其根本原因是 BF16 具有较宽的动态范围，可以保持数值稳定性，同时匹配全精度 FP32 的性能。此外，与 FP32 相比，BF16 使用的位数只有一半，因此可以显著减少内存占用，同时提高计算效率。

FP8 是从 16 位数据格式自然演进而来的，可以进一步降低计算成本。然而，使用低精度 FP8 训练 LLM 带来新的挑战。FP81 的动态范围和表示精度远低于 BF16 和 FP16，这不可避免地会导致更多训练崩溃，例如损失激增甚至 NaN。为了解决这些问题，提出了张量缩放技术。核心思想是在将更高精度值转换为 FP8 之前，先用缩放因子将其相乘，以便将它们移动到与 FP8 格式的表示范围更好地重叠的范围内。这种每张量缩放技术可以减少数据量化误差，同时提高数值稳定性和精度，从而可以使用低精度 FP8 来训练大型模型。

不幸的是，目前对 FP8 低精度训练的支持有限。英伟达 TE 仅支持 Transformer 中线性层的 FP8 计算，而其他所有操作（例如权重更新和梯度同步）仍然使用更高精度。在这项工作中，我们提出了一种针对 LLM 训练的极度优化的 FP8 混合精度策略。新的 FP8 优化包括三个关键方面：FP8 通信、FP8 优化器和 FP8 分布式训练。通过整合这些方面，LLM 的训练（例如 1750 亿参数的 GPT-3 模型）可以充分利用 FP8 低精度的优势，提高训练效率。

2.1 FP8 梯度和所有减少通信

现有的混合精度训练方法通常使用 16 位或 32 位数据类型来计算和存储梯度，这导致在整个训练过程中对集体通信的带宽要求很高。我们发现，将 FP8 直接应用于梯度会导致精度下降。根本问题在于低位所有减少操作导致的下溢和上溢问题。具体来说，在所有减少过程中，跨 GPU 的梯度累加会导致数值范围超出 FP8 的表示范围，从而导致梯度信息丢失，并最终导致模型训练崩溃。

为了解决这个问题，我们提出了一种新的自动缩放技术，用于在 FP8 所有减少过程中动态调整张量缩放因子。该技术通过在所有减少之前和之后应用缩放因子来确保 FP8 梯度在所有减少过程中保持在表示范围之内。这种动态缩放方法可以有效地防止下溢和上溢，从而提高 FP8 梯度通信的精度和稳定性。

2.2 FP8 优化器

除了梯度通信之外，优化器状态（例如动量和 RMSProp）也需要大量的内存，并且通常使用高精度（例如 FP32）进行存储。为了进一步降低内存占用，我们提出使用 FP8 来存储优化器状态。然而，直接将 FP8 应用于优化器状态会导致训练不稳定，因为优化器状态的精度对模型训练的稳定性至关重要。

为了解决这个问题，我们提出了一种精度解耦技术，它将优化器状态的精度与模型权重和梯度的精度分离。具体来说，我们使用 FP8 来存储优化器状态，同时使用更高的精度（例如 FP16 或 BF16）来存储模型权重和梯度。这种精度解耦方法可以有效地降低内存占用，同时保持训练的稳定性。

2.3 FP8 分布式训练

在分布式训练中，模型权重需要在多个 GPU 之间进行同步，这会导致大量的通信开销。为了降低通信开销，我们提出使用 FP8 来存储模型权重。然而，直接将 FP8 应用于模型权重会导致精度下降，因为模型权重的精度对模型的性能至关重要。

为了解决这个问题，我们提出了一种新的 FP8 分布式训练方法，它将模型权重的精度与梯度的精度分离。具体来说，我们使用 FP8 来存储模型权重，同时使用更高的精度（例如 FP16 或 BF16）来存储梯度。这种精度解耦方法可以有效地降低通信开销，同时保持模型的性能。

3 FP8 训练框架

我们的 FP8 混合精度训练框架旨在通过逐步引入 FP8 计算、存储和通信来提高 LLM 训练的效率。该框架包括三个优化级别，每个级别都针对 LLM 训练的不同方面进行优化。

3.1 级别 1：FP8 梯度通信

级别 1 框架使用 FP8 来存储和传输梯度，同时使用更高的精度（例如 FP16 或 BF16）来存储模型权重和优化器状态。这种方法可以有效地降低梯度通信的带宽要求，同时保持训练的稳定性。

3.2 级别 2：FP8 优化器

级别 2 框架使用 FP8 来存储和传输梯度和优化器状态，同时使用更高的精度（例如 FP16 或 BF16）来存储模型权重。这种方法可以进一步降低内存占用，同时保持训练的稳定性。

3.3 级别 3：FP8 分布式训练

级别 3 框架使用 FP8 来存储和传输梯度、优化器状态和模型权重。这种方法可以最大限度地降低内存占用和通信开销，同时保持训练的稳定性。

4 实验结果

为了评估我们 FP8 混合精度训练框架的有效性，我们在 GPT 风格的模型上进行了实验，包括预训练和监督微调 (SFT)。实验结果表明，我们的 FP8 框架可以显著降低内存占用和训练时间，同时保持模型的性能。

4.1 预训练

我们在 GPT-7B 和 GPT-175B 模型上进行了预训练实验，并与流行的 BF16 混合精度训练方法进行了比较。实验结果表明，我们的 FP8 框架可以将实际内存使用量减少 29% 到 39%，同时将权重相关的通信开销减少 63% 到 65%。此外，我们的 FP8 框架可以将 GPT-175B 模型的训练时间缩短 37%，同时将 H100 GPU 平台上的内存消耗减少 42%。

4.2 微调

我们在 AlpacaEval 和 MT-Bench 基准测试上对 GPT-7B 模型进行了指令微调实验，并与使用半精度 BF16 的方法进行了比较。实验结果表明，我们的 FP8 框架可以实现与 BF16 相当的性能，同时训练速度提高了 27%。此外，我们还评估了 FP8 在 RLHF 中的潜力，发现它可以使模型权重减少 32%，优化器状态的内存消耗减少 62%。

5 结论

我们提出了一种新的 FP8 混合精度训练框架，它可以有效地降低 LLM 训练的成本，同时保持模型的性能。该框架通过逐步引入 FP8 计算、存储和通信来实现优化，并提供三个优化级别，以满足不同的训练需求。实验结果表明，我们的 FP8 框架可以显著降低内存占用和训练时间，同时保持模型的性能。我们相信，我们的 FP8 框架将为下一代低精度训练系统建立一个新的范式，该系统专门用于大型基础模型。

参考文献
- Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., … & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
- Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, N., Roberts, A., … & Tay, Y. (2022). PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
- Li, B., Zhang, M., Hu, J., Li, R., Ni, B., Xiong, Y., … & Liu, Z. (2023a). Colossal-AI: A unified deep learning system for large-scale parallel training. arXiv preprint arXiv:2302.09060.
- Li, J., Chen, M., Wang, S., Zhou, D., & Xiong, L. (2023b). AlpacaEval: A comprehensive evaluation benchmark for instruction-following language models. arXiv preprint arXiv:2304.05799.
- Micikevicius, P., Narang, S., Alben, J., Diamos, G., Elsen, E., Garcia, D., … & Wu, Y. (2017). Mixed precision training. arXiv preprint arXiv:1710.03740.
- Micikevicius, P., Alben, J., Wu, Y., Teerapittayanon, S., & Gomez, A. (2022). fp8 training for deep learning. arXiv preprint arXiv:2203.14784.
- Nvidia. (2022a). Nvidia H100 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h100/
- Nvidia. (2022b). Nvidia Transformer Engine. https://developer.nvidia.com/nvidia-transformer-engine
- OpenAI. (2023). GPT-4. https://openai.com/product/gpt-4
- Rae, J. W., Borgeaud, S., Cai, T., Olah, C., Leike, J., Allen, D., … & Hinton, G. (2021). Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11406.
- Scao, T., Lachaux, A., Lhuillier, M., Schick, T., Bordes, A., Févry, T., … & Jaffré, J. (2022). Bloom: A 176b-parameter open-access multilingual language model. arXiv preprint arXiv:2203.15556.
- ShareGPT. (2023). ShareGPT. https://github.com/nomic-ai/gpt-4-11k
论文综述和评论：FP8-LM: Training FP8 Large Language Models

《FP8-LM: Training FP8大型语言模型》是一篇关于使用FP8低比特数据格式训练大型语言模型（LLMs）的论文。该论文探索了在LLMs训练中使用FP8低精度数据格式的有效性和效率。作者提出了一个新的FP8自动混合精度训练框架，该框架通过逐步引入8位梯度、优化器状态和分布式学习，实现了LLMs的混合精度和分布式并行训练。论文通过实验结果展示，使用FP8混合精度训练框架，可以显著降低实际内存使用量，并且训练速度比广泛采用的BF16框架快75%。此外，该框架还具有通用性，可以应用于其他任务，如LLMs指令调优和强化学习。作者在论文中开源了FP8低精度训练框架。

这篇论文的主要贡献在于提出了一种新的FP8混合精度训练框架，该框架充分利用了FP8低精度数据格式的优势，降低了LLMs训练的成本。通过逐步引入FP8梯度、优化器状态和分布式学习，论文展示了在训练大型语言模型时，使用FP8混合精度训练框架可以同时降低内存使用和训练时间，从而降低了大型基础模型的训练成本。此外，该框架的通用性使其可以无缝应用于其他任务，为微调费用节约提供了可能。作者通过开源FP8低精度训练框架，为下一代低精度训练系统的设计奠定了基础。

论文的创新点在于提出了使用FP8低精度数据格式训练LLMs的新方法，并通过实验证明了其有效性。该方法充分利用了FP8的优势，降低了训练成本，并在保持模型精度的同时提高了训练效率。此外，论文还介绍了针对FP8训练的挑战和解决方案，如数据下溢和上溢问题以及张量缩放技术。

总的来说，这篇论文对于推动下一代FP8低精度训练系统的设计具有重要意义。通过引入新的FP8混合精度训练框架，论文提供了一种降低大型语言模型训练成本的有效方法，并为其他任务的低精度训练提供了一种可行的解决方案。该论文的实验结果表明，FP8混合精度训练框架在减少内存使用和提高训练效率方面具有显著的优势。尽管还存在一些挑战，如数据表示范围的限制和量化误差，但这些问题可以通过提出的解决方案得到有效解决。

微软自动混合精度 (MS-AMP) 简介

MS-AMP 是微软开发的用于深度学习的自动混合精度软件包。它利用 FP8（8 位浮点数）格式来加速训练过程，并减少内存占用，从而使训练更大的模型成为可能。

主要特点

MS-AMP 提供了三种优化级别，以满足不同的训练需求：
- O1 优化: 将 FP8 应用于权重和权重梯度，并在通信中支持 FP8。
- O2 优化: 支持 FP8 用于 Adam 和 AdamW 两种优化器。
- O3 优化: 支持 FP8 用于分布式并行训练和 ZeRO 优化器，这对于训练大型模型至关重要。
此外，MS-AMP 还提供了四个训练示例，涵盖了 Swin-Transformer、DeiT、RoBERTa 和 GPT-3 等流行模型。

与 Transformer Engine 的优势

与 NVIDIA 的 Transformer Engine 相比，MS-AMP 具有以下优势：
- 加速内存受限操作: 通过访问单个字节，而不是半精度或单精度，从而加速内存受限操作。
- 减少内存需求: 降低训练模型的内存需求，从而支持训练更大的模型。
- 加速分布式模型通信: 通过传输低精度梯度来加速分布式模型的通信。
- 缩短大型语言模型的训练时间: 允许使用更大的 mini-batch，从而缩短大型语言模型的训练时间。
性能

MS-AMP 在保持高精度的情况下，仅使用一小部分内存，并在各种任务上取得了出色的性能，包括 GPT-3、DeiT 和 Swin Transformer。

模型性能:

MS-AMP 在 GPT-3、Swin-Transformer、DeiT 和 RoBERTa 等模型上进行了评估，结果表明，使用 MS-AMP 训练的模型与使用 FP16/BF16 AMP 训练的模型性能相当。

系统性能:

在 NVIDIA H100 平台上训练 GPT-175B 模型时，MS-AMP 与 BF16 混合精度方法相比，实际内存使用量减少了 39%，训练时间减少了 37%。对于较小的模型，MS-AMP 的 O2 模式与 FP16 AMP 相比，可以为 Swin-1.0B 模型节省 44% 的内存，为 ViT-1.2B 模型节省 26% 的内存。

总结

MS-AMP 是一个强大的工具，可以显著提高大型语言模型的训练效率。它通过利用 FP8 格式来减少内存占用和通信开销，从而加速训练过程并支持训练更大的模型。

参考文献:
- MS-AMP 文档
2024 年 6 月 17 日
【转载】战胜内心的抗拒：追寻创作之路，还有一只野猫

嘿！上个星期我跟大家分享了一本我超爱的书，《The War of Art》。这本书头头是道地讲述了创作者们最头疼的问题，就是怎么战胜自己内心的拖延魔。

作者管这拖延魔叫做「阿抗」，这家伙总是在我们想要追求长远成长、健康发展或者做点诚实正直的事情时冒出来捣乱。它就像个坏蛋，想尽办法阻止我们向前迈进。

要想战胜这个阿抗，我们得变成「专业人士」。这本书里有好多有趣的故事和金句，今天我就来跟大家嗨皮一下，分享点精华内容。

首先是一只野猫的故事。有一次作者身无分文，只能去乡下租了一间破房子，租金才15块钱，房子连门、电、厨房和厕所都没有。每次他在屋外生火做饭，就会有一只看上去狼狈不堪的野猫冲出来，在不远处坐下盯着他看。

这只猫就那么静静地坐着，根本不吃作者给的食物，只是凝视着他。明显地，这只猫跟作者不在一个层次上啊。

但是作者却觉得这是个好兆头。他当时心里想：为什么会有只猫出现在这个时候，而且还一直出现，感觉就像是我的能量一直把它招引过来。

「也许它来这里是为了鼓励我，告诉我，『Steven，你也可以像我一样。你可以自主，你可以照顾好自己。』」

这给了当时处于低谷的作者巨大的力量。

阿抗就像是电影《异形》、《终结者》或者《大白鲨》里的那个恶魔，它根本没法理性对话。它就是个破坏引擎，从工厂里设计出来的唯一目的就是阻止我们完成工作。

阿抗的目的不仅仅是想伤害我们，更是想彻底摧毁我们的天赋、我们的灵魂、我们所拥有的独一无二的福祉。

当我们跟阿抗搏斗的时候，我们真的是在一场生死大战中。

深夜里，你有没有过一种幻想，看到你可能成为的人，你可以完成的工作，你应该成为的自己？

你是一个不写作的作家，不画画的画家，不创业的企业家吗？如果是的话，那你懂的，阿抗就是你的老相好。

天才这个词源自拉丁语，古罗马人用它表示一种内在的、神圣且不可侵犯的精神，它看护着我们，引导我们走向我们的天命。

每个太阳都会投下阴影，天才的阴影就是阿抗。我们灵魂对实现天命的呼唤有多强大，阿抗哟！上周过得咋样啊？我上周分享了一本我超喜欢的书，《The War of Art》。这本书讲的是创作者们最重要的一个认知和修炼，就是「抗拒」（我亲切地称之为阿抗），总是在我们选择做一些长远成长、健康或诚实的行为时出现。

咱们想要成长进阶，阿抗就会狠狠地拦在咱们面前，想尽一切办法阻止咱们前进。为了赢得这场和阿抗的战役，咱们得成为「专业人士」。

为了视频时长的关系，我没带上作者很多有趣的故事和书中的金句，咱们在这里分享给大家吧。（真的不能只有我看到）

一只野猫的故事
当 Steven Pressfield 落魄到跑到乡下去租一个租金只要 15 美金的房子，连门、连电、连厨房、连厕所都没有时，只要他在屋子外面生火煮东西，就会有一只看起来伤痕累累的野猫跑出来，坐在不远处看着他。

这只猫就只是静静坐着，完全不吃 Steven Pressfield 给的食物，就只是盯着他看。

两者哪一个是自给自足，能够将自己的生活打理好的一方，显而易见。

但 Steven Pressfield 觉得这是一个好兆头。

他那时候心里想：为什么这时候会出现这么一只猫，而且它的持续出现，感觉是自己的能量一直把它拉出来。

「也许它来这里是为了鼓励我，告诉我，’Steven，你也可以像我一样。你可以是自主的，你可以照顾好自己的。’」

这给当时处于最黑暗深渊的他极大的力量。

有关「阿抗」
阿抗就像异形、终结者，或者《大白鲨》里的那条鲨鱼，它无法理性对话。

它是一个毁灭的引擎，从工厂里被设计出来的唯一目的，就是阻止我们完成工作。

阿抗的目的不仅仅要伤害我们，它更要进一步杀死我们的天赋、我们的灵魂、我们被赋予的独一无二的礼物。

当我们跟阿抗战斗时，我们确实就是在一场生死之战中。

深夜里，你有没有过一种幻想，看到你可能成为的人，你可以完成的工作，你应该成为的自己？

你是一个不写作的作家，不画画的画家，不创业的企业家吗？如果是的话，那么你知道什么是阿抗。

天才（Genius）是一个拉丁词，罗马人用它来表示一种内在的、神圣且不可侵犯的精神，它看护着我们，引导我们走向我们的天命。

每一个太阳都会投下阴影，天才的阴影就是阿抗。我们灵魂对实现天命的呼唤有多强大，阿抗的力量也就越强大。

阿抗会化身成自我怀疑，而自我怀疑可能是个盟友，因为它是渴望的指标。它也反映了爱，对我们梦想要做的事情的爱。

如果你常问自己（或你的朋友），”我真的是一个作家吗？我真的是一个艺术家吗？” 那你很可能就是。

阿抗也会化身成恐惧。恐惧是好的。就像自我怀疑一样，恐惧是一个指标，它告诉我们我们该做什么。

我们对一项工作或使命感到越害怕，就越可以确定我们必须去做它。

阿抗的力量与爱成正比。如果你感到巨大的抗拒，好消息是，这意味着那里也有巨大的爱。

如果你不爱那个让你感到恐惧的事情，你就不会感到任何东西。爱的反面不是恨，而是冷漠。

有关「恐惧」
恐惧是阿抗的食物。我们通过害怕才能感受到「抗拒」的存在。但我们害怕什么？

害怕追随内心的后果感到恐惧。害怕破产，害怕变穷，害怕低声下气，害怕无法养家糊口，害怕为了我们的梦想而牺牲家人的梦想。

害怕背叛我们的种族，我们的社群，我们的朋友。

害怕失败、害怕看起来很傻，害怕浪费那些我们爱的人牺牲自己，让我们接受的教育、害怕放弃我们之前努力追求的成就。

害怕白费功夫、害怕无法回头、害怕最后只能跟这个糟糕的选择度过余生。

这些都是挺严重的恐惧，但还不是真正的恐惧，不是那个从我们口中说出来，自己都不相信的恐惧。

那就是：害怕我们会成功。

于是我们可以接触到那个隐藏的力量，可以成为内心深处真正的自己。

这是人类能够面对的最令人恐惧的未来，因为这使得一个人在心中被他的部落踢出去了，而这种想象中的连接已经存在了五千万年。

我们害怕发现自己比我们以为的更强大，比我们的父母/孩子/老师以为的更强大。

害怕我们真的拥有埋藏在内心深处的才华，害怕我们真的拥有勇气、毅力和实力。

害怕我们真的能够掌握自己的方向、插上自己的旗子、抵达我们应许之地。

我们害怕这一切，因为如果这是真的，那么我们将与所知道的一切疏离。

我们知道，如果要拥抱理想，我们必须证明自己配得上。

这让我们吓壳了。

我们最终会变成什么样子？我们将失去朋友和家人，他们将不再认识我们。

我们最终会孤独地身处在冷寂的星空下，没有任何人或任何东西可以依靠。

然而，有个奇妙的地方。

我们最终抵达了那个境地，但并不是孤身一人。

相反地，我们接触到了一个取之不尽、用之不竭的智慧、意识和友情之源。

是的，我们失去了朋友。但我们也在从未想到的地方找到了朋友。

而且这些朋友更好，更真诚。而我们同样也对他们更好，更真诚。

相信我，这是真的。

我和阿抗的战役
不知道你看了以上的文字有什么感觉？我自己是相当震撼。

其实我上周在做明天要上传的视频时，我发现阿抗的攻击力变得异乎寻常地强大。

结果让我花了整整三个工作天，才把剧本写完，拍完之后整个人都虚脱了，但也如释重负，相当有成就感。

所以我知道，这正是我该做的。

所以，如果可以的话，请你助我一臂之力，帮我用力分享明天的视频，好吗？

你看了之后，会知道为什么的。

喔对了，还有一件我之前相当抗拒的一件事情，我也决定要去做了，那就是报名今年的【走钟奖】，

极度社恐、内向指数100分的我，只要一想到有可能要坐在那个场合一个晚上，我就浑身抗拒。

但是身为「专业人士」，为了让我们吐心瀝血做出来的视频被更多人看到，这是毫无疑问一定要做的。

如果到时有幸入围，我会请大家帮忙冲人气的。

来吧，咱们一起战胜阿抗，追寻自己的梦想。无论阿抗如何困扰我们，咱们要坚持不懈，相信自己的能力。祝愿你在未来的努力中取得成功，同时也希望我的视频和【走钟奖】能够获得更多人的关注和支持！

就是这样，咱们一起去战胜阿抗！加油！

By 【張修修的自由之路】

2024 年 6 月 17 日
利用Softmax-DPO优化推荐系统的论文综述

摘要：推荐系统是根据用户的偏好数据预测个性化的排名。近年来，随着语言模型（LMs）的兴起，基于LM的推荐系统得到了广泛研究。然而，现有的LM-based推荐系统往往未能充分利用偏好数据，并未针对个性化排序任务进行优化，限制了其性能。本文针对这一问题，提出了一种名为Softmax-DPO（S-DPO）的优化方法，将排名信息直接融入LM中，帮助区分用户偏好的物品。S-DPO通过使用多个负样本构建偏好数据，并针对LM-based推荐系统设计了一种新的DPO损失函数，结合了Softmax采样策略。实验证明，S-DPO在三个真实世界数据集上的表现优于其他基线模型，有效地模拟了用户的偏好，并提升了推荐性能。

引言：推荐系统旨在根据用户的偏好数据预测个性化的排名。近年来，随着语言模型（LMs）的发展，基于LM的推荐系统得到了广泛研究。LM-based推荐系统将用户的历史交互数据转化为语言提示，并通过在训练过程中优化语言模型来实现推荐。然而，现有的LM-based推荐系统并未充分利用偏好数据，并未针对个性化排序任务进行优化，从而限制了其性能。

本文的主要贡献是提出了一种名为Softmax-DPO（S-DPO）的优化方法，专门针对LM-based推荐系统进行了优化。S-DPO通过在偏好数据中引入多个负样本，并设计了一种新的DPO损失函数，将排名信息直接融入LM中。与现有的方法相比，S-DPO在准确建模用户偏好和提升推荐性能方面具有明显优势。

实验证明，S-DPO在三个真实世界数据集上表现出色。与传统推荐系统和其他LM-based推荐系统相比，S-DPO的命中率提高了11.10%至47.03%。这是因为S-DPO能够有效地区分用户喜欢和不喜欢的物品，充分利用了多个负样本的排名梯度。此外，S-DPO还成功解决了DPO训练中数据似然下降的问题，提高了模型的性能和稳定性。

综上所述，本文提出的S-DPO方法为LM-based推荐系统的优化提供了重要思路。通过将排名信息融入LM，并利用多个负样本，S-DPO能够更好地模拟用户的偏好，并提升推荐性能。这一方法在推荐系统领域具有重要的应用前景，同时也为其他领域的研究提供了有价值的启示。

关键词：推荐系统，语言模型，偏好数据，个性化排序，Softmax-DPO

2024 年 6 月 17 日
MiLoRA：利用次要奇异成分实现高效的 LLM 微调
大型语言模型 (LLM) 在各种任务中展现出优异的性能，例如数学推理和问答。这些模型通常在大型网络数据上进行预训练，然后使用指令数据和人类偏好数据进行微调，以适应不同的下游任务。然而，完全微调需要大量的计算资源，限制了 LLM 在不同场景中的应用。

参数高效微调 (PEFT) 旨在降低预训练模型微调的计算和 GPU 内存成本。低秩自适应 (LoRA) 是最常用的 PEFT 方法之一，它假设线性模型权重的变化是低秩的。对于每个选定的权重矩阵，LoRA 只更新两个低秩矩阵，同时保持原始权重矩阵不变。在推理过程中，低秩矩阵被合并到预训练的线性权重中，因此不会引入额外的计算或内存成本。

尽管 LoRA 在效率方面表现出色，但它存在一些局限性。现有的 LoRA 方法通常随机初始化低秩矩阵，并在无指导的子空间中优化可训练参数。这种策略可能会覆盖预训练模型中重要的特征，从而影响低秩自适应方法的性能。

MiLoRA：利用次要奇异成分进行低秩自适应

为了解决这个问题，本文提出了一种名为 MiLoRA 的简单而有效的 PEFT 方法，它只更新权重矩阵的次要奇异成分，而保持主要奇异成分不变。

主要奇异成分 对应于权重矩阵中重要的特征，而 次要奇异成分 则包含噪声或长尾信息。MiLoRA 将低秩矩阵初始化在一个与主要矩阵正交的子空间中，从而最大限度地利用次要奇异成分来学习微调数据集，同时保留预训练模型的知识。

MiLoRA 的工作原理
1. 分解权重矩阵： 使用奇异值分解 (SVD) 将权重矩阵 W 分解成两个矩阵：主要矩阵 Wp 和次要矩阵 Wm。
2. 初始化低秩矩阵： 使用次要矩阵 Wm 初始化 LoRA 框架中的低秩矩阵 A 和 B。
3. 微调： 只更新低秩矩阵 A 和 B，而保持主要矩阵 Wp 不变。
实验结果

本文在常识推理、数学推理和指令遵循基准上进行了广泛的实验，结果表明 MiLoRA 始终优于 LoRA 和 PiSSA，而不会牺牲训练或推理效率。

常识推理： 在 LLaMA2-7B 和 LLaMA3-8B 上，MiLoRA 在八个常识推理数据集上的平均准确率分别提高了 1.6% 和 1.1%。

数学推理： 在 LLaMA2-7B 上，MiLoRA 在 GSM8K 和 MATH 数据集上的平均准确率分别提高了 1.92% 和 1.76%。

指令遵循： 在 LLaMA2-7B 上，MiLoRA 在 Alpaca-Eval v1.0 上的胜率达到 87.3%，与 LLaMA2 Chat 7B 的性能相当。

MiLoRA 的优势
- 保留预训练知识： 通过保持主要奇异成分不变，MiLoRA 能够有效地保留预训练模型的知识。
- 高效学习： MiLoRA 只更新次要奇异成分，从而减少了训练参数的数量，提高了训练效率。
- 简化超参数设置： MiLoRA 不需要调整缩放因子 α 和初始化超参数，只需设置秩 r 即可。
结论

MiLoRA 是一种简单而有效的 PEFT 方法，它通过利用次要奇异成分来实现高效的 LLM 微调。实验结果表明，MiLoRA 在各种任务上都取得了优异的性能，同时保留了预训练模型的知识。

参考文献
- Hu, J., Shen, Z., Xiong, L., Zhang, S., & He, X. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
- Meng, X., Wang, Y., Wang, J., Chen, J., & Zhang, M. (2024). PiSSA: Parameter-efficient finetuning with principle singular component adaptation. arXiv preprint arXiv:2404.05636.
- Touvron, J., Lachaux, M., Izacard, G., Hoffmann, J., & Joulin, A. (2023). Llama: Open and efficient large language models. arXiv preprint arXiv:2302.13971.
- AI@Meta. (2024). Llama 3: Open and efficient large language models. Retrieved from https://ai.facebook.com/blog/llama-3-open-and-efficient-large-language-models/.
下一步工作
- 将 MiLoRA 与其他 LoRA 变体相结合，进一步提高性能。
- 研究 MiLoRA 在其他任务上的应用，例如机器翻译和代码生成。
- 探索 MiLoRA 的理论基础，并分析其优越性能的原因。
Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种名为MiLoRA的新方法，旨在解决大型语言模型（LLMs）的高效微调（finetuning）问题。具体来说，它试图解决以下问题：
1. 计算和内存成本：传统的全参数微调方法需要大量的计算资源和内存，这限制了大型语言模型在不同场景下的广泛应用。
2. 知识干扰：以往的基于LoRA（Low-Rank Adaptation）的方法在随机初始化低秩矩阵时，可能会在优化过程中干扰预训练权重矩阵中已经学习到的重要特征。
3. 参数效率：为了减少微调期间的计算和GPU内存成本，需要一种参数高效的微调方法，以便在保持模型性能的同时减少可训练参数的数量。
MiLoRA通过仅更新权重矩阵的次要奇异成分（minor singular components），同时保持主要奇异成分（principle singular components）固定，来解决上述问题。这种方法预期能够在微调任务中有效学习，同时更好地保留和利用预训练知识。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与参数高效微调（PEFT）相关的研究工作，以下是一些主要的相关研究：
1. LoRA (Low-Rank Adaptation) (Hu et al., 2021): 一种广泛使用的PEFT方法，通过使用两个可训练的低秩矩阵来重新参数化选定的线性权重的更新。
2. PiSSA (Meng et al., 2024): 一种与MiLoRA同时期提出的低秩适应方法，它适应主要奇异成分，而不是次要奇异成分。
3. Adapter-based methods (Houlsby et al., 2019; Pfeiffer et al., 2021a,b): 通过在每个Transformer层中插入额外的可训练前馈子模块来进行参数高效的迁移学习。
4. Prompt-based methods (Lester et al., 2021; Li & Liang, 2021; Liu et al., 2022): 在输入令牌中添加额外的软提示，在训练期间只更新软提示，而固定预训练模型参数。
5. AdaLoRA and ALoRA (Zhang et al., 2023; Liu et al., 2024b): 自适应地确定每个权重矩阵中LoRA模块的秩，根据重要性分数调整秩。
6. rsLoRA (Kalajdzievski, 2023): 通过适当的缩放因子改进LoRA，以提高大秩性能。
7. DoRA (Liu et al., 2024a): 将预训练权重分解为幅度和方向组件，然后对两者进行微调以获得更好的性能。
8. VeRA (Kopiczko et al., 2024): 通过在所有层之间共享一对低秩矩阵，与LoRA相比减少了可训练参数的数量。
这些研究工作为大型语言模型的参数高效微调提供了多种方法和思路，而MiLoRA则是在此基础上提出的新方法，旨在通过特定的方式来平衡学习新任务和保留预训练知识。

Q: 论文如何解决这个问题？

A: 论文通过提出MiLoRA（Minor singular component based Low Rank Adaptation）方法来解决大型语言模型（LLMs）的高效微调问题。MiLoRA的核心思想和解决策略如下：
1. 奇异值分解（SVD）：首先对权重矩阵进行SVD分解，将其分为主要矩阵（Wp）和次要矩阵（Wm），其中Wp对应于较大的奇异值，而Wm对应于较小的奇异值。
2. 保留主要矩阵：论文假设主要矩阵Wp包含了预训练知识的核心部分，因此在微调过程中保持Wp固定，以保留重要的预训练知识。
3. 初始化低秩矩阵：将次要矩阵Wm用于初始化LoRA框架中的低秩矩阵A和B。这样，可训练的低秩矩阵在与主要矩阵正交的子空间内初始化，预期能够在学习微调任务的同时，更好地利用和保留预训练知识。
4. 简化的超参数：与标准LoRA方法相比，MiLoRA不需要调整缩放因子α和其他初始化超参数，仅需要设置秩r，这简化了训练过程。
5. 实验验证：通过在常识推理、数学推理和指令跟随等多个基准测试上的广泛实验，论文证明了MiLoRA在保持训练和推理效率的同时，能够持续超越LoRA和其他PEFT方法。
6. 性能提升：实验结果显示，MiLoRA在不同任务上均取得了性能提升，例如在常识推理任务上，MiLoRA在LLaMA2-7B和LLaMA3-8B模型上分别取得了1.6%和1.1%的平均准确率提升。
通过这些策略，MiLoRA旨在实现在微调过程中对大型语言模型的有效调整，同时最大限度地减少对已有预训练知识的干扰，以此提高微调的效率和效果。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估MiLoRA方法的有效性，并与其他参数高效微调（PEFT）方法进行比较。以下是论文中提到的主要实验：
1. 常识推理（Commonsense Reasoning）：
  - 使用LLaMA2-7B和LLaMA3-7B模型在Commonsense170K数据集上进行微调。
  - 评估数据集包括BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-e、ARC-c和OBQA等八个常识推理数据集。
  - 任务被制定为多项选择问题，通过验证集损失选择最佳检查点，并报告所有数据集的准确率。
2. 数学推理（Math Reasoning）：
  - 使用LLaMA2-7B模型在MetaMathQA数据集上进行微调，该数据集包含从GSM8K和MATH数据集扩展的样本。
  - 使用GSM8K和MATH的测试集进行评估，报告最后一个检查点的精确匹配比率。
3. 指令跟随（Instruction-following）：
  - 按照Wu等人（2024a）和Wu等人（2024b）的实验设置，使用Ultrafeedback对LLaMA2-7B进行微调。
  - 使用Alpaca-Eval v1.0进行评估，并报告与text-davinci-003使用GPT4-0613作为注释器的胜率。
4. 不同秩设置对MiLoRA的影响：
  - 通过调整秩r的不同配置（16, 32, 64, 128），评估不同秩设置对MiLoRA在数学推理任务上的影响。
5. 次要奇异分量适应的重要性：
  - 通过使用主要、随机采样和次要奇异分量初始化低秩矩阵A和B，评估它们在数学推理任务上的性能。
6. 矩阵更新∆W与W的比较：
  - 分析不同方法中∆W（微调前后权重的差异）与W（预训练权重）之间的关系。
7. MiLoRA与其他基线方法的遗忘损失比较：
  - 使用交叉熵作为度量标准，评估MiLoRA与其他方法相比在保留预训练知识方面的表现。
8. MiLoRA与PiSSA的比较：
  - 比较MiLoRA与PiSSA在相同实验设置下的性能，探讨两者在动机、性能和超参数配置方面的差异。
这些实验结果表明，MiLoRA在多个任务和数据集上均能实现优于现有PEFT方法的性能，同时保持了训练和推理的效率。

Q: 有什么可以进一步探索的点？

A: 尽管MiLoRA在实验中表现出色，但仍有一些潜在的研究方向和探索点，包括但不限于：
1. 不同模型的适用性：MiLoRA主要在LLaMA模型族上进行了测试。未来的工作可以探索MiLoRA在其他大型语言模型（如GPT、T5等）上的有效性和适用性。
2. 不同任务的泛化能力：除了常识推理、数学推理和指令跟随任务外，MiLoRA在其他类型的任务（如文本摘要、机器翻译、情感分析等）上的表现如何，值得进一步研究。
3. 超参数优化：虽然MiLoRA减少了需要调整的超参数数量，但进一步研究如何根据具体任务和数据集自动调整这些超参数可能会提高性能。
4. 与其他PEFT方法的结合：MiLoRA是否可以与其他参数高效微调方法（如Adapter、Prompt等）结合，以实现更优的性能，是一个值得探索的方向。
5. 理论分析：对MiLoRA的理论基础进行更深入的分析，包括其在优化过程中对预训练知识保留的机理，以及为何次要奇异分量更适应微调任务。
6. 计算效率：尽管MiLoRA旨在减少计算资源的需求，但进一步优化算法以提高训练速度和减少内存使用仍然是一个有价值的研究方向。
7. 实际应用：在实际应用场景中测试MiLoRA，例如在资源受限的环境中，或者在需要快速部署和更新模型的情境下。
8. 模型鲁棒性：研究MiLoRA在面对对抗性攻击或数据分布偏移时的鲁棒性，并探索提高模型稳定性的方法。
9. 可解释性：提高MiLoRA微调过程的可解释性，帮助研究人员和用户理解模型是如何学习和适应新任务的。
10. 伦理和社会影响：研究MiLoRA在不同应用中可能带来的伦理和社会影响，以及如何制定相应的指导原则和政策来确保技术的正当使用。
这些探索点不仅可以推动MiLoRA方法本身的发展，也有助于更广泛地理解和改进大型语言模型的微调策略。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下：
1. 问题背景：大型语言模型（LLMs）在各种任务上表现出色，但全参数微调需要大量计算资源，限制了它们的广泛应用。
2. 研究目标：提出一种参数高效的微调方法MiLoRA，以减少计算和内存成本，同时保留预训练模型的知识。
3. 方法介绍：
  - 使用奇异值分解（SVD）将权重矩阵分为主要矩阵和次要矩阵。
  - 在微调过程中，保持主要矩阵固定，只更新次要矩阵对应的低秩矩阵。
4. MiLoRA的优势：
  - 通过初始化低秩矩阵在与主要矩阵正交的子空间内，减少对预训练知识的干扰。
  - 简化了超参数调整，只需设置秩r。
5. 实验验证：
  - 在常识推理、数学推理和指令跟随等任务上进行了广泛的实验。
  - 实验结果表明，MiLoRA在多个数据集上均优于LoRA和其他PEFT方法。
6. 性能提升：MiLoRA在不同任务上实现了性能提升，如在常识推理任务上提高了平均准确率。
7. 进一步分析：
  - 探讨了不同秩设置对MiLoRA性能的影响。
  - 分析了次要奇异分量适应的重要性。
  - 对比了MiLoRA与现有方法在矩阵更新和知识遗忘方面的差异。
8. 相关工作：讨论了参数高效微调的相关研究，包括Adapter-based、LoRA-based和Prompt-based方法。
9. 结论：MiLoRA是一个简单而有效的低秩适应方法，能够在微调任务中有效学习，同时更好地保留预训练知识。
10. 未来工作：提出了对MiLoRA在其他任务和其他LLMs上进一步探索的可能性，以及对计算效率、模型鲁棒性和伦理影响的考量。
论文通过提出MiLoRA方法，为大型语言模型的高效微调提供了一种新的视角，并在多个任务上验证了其有效性。
2024 年 6 月 17 日
幕府（日本）：日本历史上的武家政权

幕府（Bakufu）是指日本历史上由征夷大将军（通常称为幕府将军）领导的武家政权。这种政治体制在日本特有的国情下形成，共经历了682年的历史，从1185年源平合战结束时开始，到1867年明治维新时结束。

幕府政权实际上是一种将天皇权力架空的政府形式，由将军及其家族掌握实际统治权。虽然征夷大将军需要经由天皇任命，被视为天皇的臣子，但大多数征夷大将军职位都是世袭的。他们实际上掌握了政权，超越了朝廷体系。随着时间的推移，幕府逐渐成为朝廷体系内的一部分。封建制度的实行使得征夷大将军并不直接统治全国，而是将领土分封给有力的武士，征夷大将军的地位相当于天下之共主，实际上是以“挟天子以令诸侯”的方式治理国家。尽管幕府将军是天皇的臣子，但他们实际上以武力统治国家。

幕府这种特殊的政治体制在日本历史上起到了重要作用。幕府将军通过颁布各种法令和政策，调节地方事务、维持社会秩序，并为国家的统一和稳定做出了贡献。然而，幕府政权也面临着许多挑战和内外压力，例如与其他大名的斗争、与外国势力的交涉等。

在幕府的历史中，镰仓幕府、室町幕府和江户幕府是三个重要时期。镰仓幕府建立于1185年，由源义经成为第一位征夷大将军，标志着武士阶层的政治崛起。然而，镰仓幕府在不断的内部纷争和外部压力下，于1333年被足利尊氏领导的室町幕府推翻。室町幕府成立后，日本进入了一个相对稳定的时期，但内部斗争和战争仍时有发生。

最后，江户幕府于1603年由德川家康建立，也被称为德川幕府。在这个时期，由于德川家康的巧妙统治和稳定的政策，日本进入了一个相对长期的和平时期。江户幕府统治下的日本社会经历了许多变革和发展，包括城市的繁荣、文化的繁盛和社会制度的变革。

总的来说，幕府是日本历史上一种独特的政治体制，将军作为实际统治者，通过领导和管理国家事务，维持社会秩序。幕府政权的崛起和发展对日本历史产生了深远的影响，

镰仓幕府（1192年-1333年）是日本历史上第一个幕府政权，位于鎌倉市，因此得名。镰仓幕府的统治时间约为150年，这段时期也被称为镰仓时代。镰仓幕府的建立者是源赖朝，属于河内源氏一族。后来，北条时政和北条义时等人成为镰仓幕府的中心人物。镰仓幕府的建立标志着日本从中央贵族政权向武家政权的转变。

镰仓幕府的建立过程可以概括如下：在治承三年政变之后，平清盛建立了平氏政权，但朝廷与民众对其专权统治感到愤慨。1180年，源赖朝举兵反对平氏政权，平氏政权在源平合战中被推翻。赖朝在战争中击败了贵族平宗盛家族，并逼迫其兄弟源义经自杀。赖朝成为了实际上的统治者，并在1192年被任命为征夷大将军，正式建立了镰仓幕府。幕府通过在各地设置守护和地头职位来确保对全国的控制，并逐渐扩大对土地的实际支配权。

在镰仓幕府的统治下，武士阶层崛起并取代了中央贵族成为实际的统治者。武士阶层崇尚武士道精神，强调忠诚、义勇、廉耻等价值观，并将儒学、佛教禅宗和神道教合而为一。然而，随着时间的推移，镰仓幕府内部权力斗争加剧，导致幕府的统治基础逐渐动摇。

镰仓幕府最终走向衰败的原因有多个方面，其中包括承久之乱（1221年）和元寇战争（1274年-1281年）的冲击。承久之乱是一次由后鳥羽上皇领导的对镰仓幕府的叛乱，虽然失败了，但削弱了幕府的实力。元寇战争是日本与蒙古帝国的战争，幕府成功抵御了外敌入侵，但也因此耗尽了大量资源。此外，幕府内部的权力斗争和民众对幕府专制统治的不满也加剧了幕府的衰落。

最终，在1333年，幕府面临着各地豪族的反幕府倒幕运动。新田义贞在关东起兵，攻克了鎌倉，北条守时和北条高时相继自杀，标志着镰仓幕府的灭亡。随后，建武新政和南北朝时代的动荡期开始，日本进入了新的政治时代。

2024 年 6 月 17 日
日本战国时代：剑起纷争的百年风云

日本历史上的战国时代，被誉为一个充满战乱和政治纷争的重要时期。它一般被界定为从1467年应仁之乱开始，持续了长达120多年的时期。这段时间内，日本政局动荡不安，各大名相互争斗，形成了群雄割据的局面。直到1590年的小田原之战中，关白丰臣秀吉消灭北条家，日本才得以实现全国统一，安土桃山时代和平时期拉开了序幕。

战国时代的起始点可以追溯到1467年的应仁之乱，这场战争被视为战国时代的开端。室町幕府在第三代将军足利义满之后陷入了内乱。政治上，幕府与关东的古河公方进行对抗，各地的政治谋杀、大名的反抗和私战也破坏了政治平衡；社会上，各地的暴动如同定时炸弹一样，给整个社会秩序带来了不同程度的冲击。然而，室町幕府从未放弃稳定全国局势的努力，直到1441年，一场意外引发了全国性的混战，使幕府的努力付诸东流。

在应仁之乱之后，幕府的威信受到重创，各地的守护大名们面临着国人的反抗和一揆的崛起。有些大名被本国国人发动的一揆所取代，有些被守护代所接替，甚至有些被宗教性暴动推翻。下克上的现象在整个战国时代普遍存在，辅佐守护的守护代、各地土豪甚至平民纷纷崛起成为大名，各地大名称霸一方，成为掌控天下的人物。同时，日本与欧洲人之间的贸易交流正式展开，基督教和火枪的引进改变了社会和战争的形态。农奴地主关系受到破坏，封建制度逐渐岌岌可危。

明应之变是关东地区的大乱。原本将幕府设在京都的镰仓公方被北条氏取代，形成了两大势力。后北条氏成为东国最强大的大名，而毛利元就在中国地区崛起，成为新力量的代表。在战国时代，以织田信长和武田信玄为代表的大名崛起，展开了一系列征战。织田信长最终掌握了中部地区，建立了织田政权，而丰臣秀吉在织田信长之后崛起，实现了日本的全国统一，并建立了丰臣政权。

丰臣秀吉在安土桃山时代成为一代霸主。他通过一系列征伐，统一了全国大名，实施了一系列重要政策，如太阁检地、兵农分离和惣无事令，为后来的江户幕府的发展提供的文本如下：

日本战国时代：剑起纷争的百年风云

战国时代是日本历史上一个动荡而重要的时期，从1467年的应仁之乱开始，持续了长达120多年的时间。这段时期充满了政治纷争和战乱，各个领主争夺权力，形成了群雄割据的局面。最终，在1590年的小田原之战中，关白丰臣秀吉消灭了北条家，日本实现了全国统一，开启了安土桃山时代的和平时期。

日本战国时代的起点可以追溯到1467年的应仁之乱。这场战争标志着幕府政权的衰落，各个大名之间爆发了政治斗争和战争。在政治上，除了与幕府对抗的关东古河公方外，各地的政治谋杀和大名们的反抗破坏了政治平衡。在社会上，一系列的一揆（暴动）如同定时炸弹，给整个社会秩序带来了不同程度的冲击。然而，幕府从未放弃稳定全国局势的决心和努力，直到1441年一场全国性的混战使他们的努力付诸东流。

在应仁之乱之后，幕府的威信大幅下降，各地的守护大名面临着国人的反抗和一揆的崛起。有些大名被本国国人发动的一揆所取代，有些则被守护代所接替，甚至有些被宗教性的一揆推翻。下克上的风气弥漫在整个战国时代，辅佐守护的守护代、各地土豪甚至平民崛起成为大名。各地大名争夺权力，一些成为掌控天下的天下人。同时，日本与欧洲人之间的贸易交流正式展开，基督教和火枪的引进改变了社会和战争的形态。到了战国时代的中后期，过往封建制度下的农奴地主关系也逐渐遭到破坏。

明应之变是关东地方的一次大乱。幕府将军足利义材对德川家康违反私战禁令的行为表示不满，以此为借口发动了讨伐行动。然而，德川家康利用军事手段和外交手段成功击败了义材，确立了自己的权力。织田信长和武田信玄等大名也崛起并展开了一系列征战。织田信长最终控制了中部地区，建立了织田政权。丰臣秀吉在织田信长之后崛起，实现了日本的全国统一，并建立了丰臣政权。

丰臣秀吉成为丰臣政权的领袖，通过一系列的征伐和政策，实现了对全国的统一。他在安土桃山时代成为一代霸主。然而，他在1598年去世后，日本陷入了动荡的局势。丰臣秀吉去世后，他的幼子丰臣秀赖继承了丰臣家的家督，但全国各地的大名们对丰臣氏的统治表达了越来越多的不满。丰臣氏的财力逐渐增强，显示出重振旗鼓的迹象，而丰臣家与德川家康紧密的联姻关系也开始面临动摇。德川家康作为五大老之首，决定斩草除根。

在庆长4年（1599年），四位大老中最具影响力的前田利家去世，丰臣家臣与德川家康的关系迅速恶化。庆长4年（1600年），德川家康以石田三成为首的五奉行违反私战禁令的行为为借口，发动会津征伐，进攻上杉景胜。石田三成认为德川家康违反了条约，召集各地大名在大坂城发表《内府违反条文》的声明，随即起兵讨伐德川氏。

庆长5年（1600年），东军以德川家康为领导，西军以石田三成为实质领导（名义上的统帅为毛利辉元），在关原进行了决定性的战斗。战斗初期，西军凭借石田三成的指挥，占据了优势，使德川家康的东军陷入被动。然而，在战斗进行到中午时，家康下令向事先已收买的西军大将小早川秀秋开火，迫使他与吉川广家等人倒戈，直逼西军主力。战局急转直下，西军从稍占优势转为完全溃败。战斗结束时，东军取得了胜利。

几天后，石田三成被捕，与小西行长以及安国寺惠琼等三人作为首要战犯被处决。德川家康完全消灭了丰臣氏的势力，关原之战成为丰臣氏的最后一战。

庆长8年（1603年），德川家康受到后阳成天皇的诏封，成为征夷大将军，江户幕府正式成立。这标志着日本进入了江户时代，为接下来的几个世纪奠定了基础。

总的来说，日本战国时代是日本历史上一个充满战争和政治纷争的重要时期。在这段时间里，各大名势力崛起，展开了激烈的争斗，最终由德川家康统一了日本，建立了长达几个世纪的幕府政权。战国时代的结束标志着日本历史的转折点，为日本社会带来了巨大的变革，并对日本历史的发展产生了深远的影响。

2024 年 6 月 17 日
大型语言模型的“技能混合”：优化数据使用，提升模型能力
大型语言模型（LLM）在自然语言处理领域取得了巨大成功，它们能够熟练掌握各种技能，例如写作、推理、聊天、编码等等。为了实现这些能力，LLM 通常需要在来自不同来源的庞大数据集上进行微调。然而，这些数据集往往具有异质性和不平衡性，给微调过程带来了挑战。如何平衡不同技能的开发，同时确保模型的整体性能，成为了一个关键问题。

本文将介绍一种名为“技能混合”（MIXTURE-OF-SKILLS，MOS）的通用、模型无关的强化学习框架，它能够在微调过程中自动优化数据使用。MOS 通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。

数据使用优化：为什么重要？

在多个数据集上微调模型时，一个常见挑战是处理数据集的异质性和不平衡性。不同数据集可能具有不同的特点，例如数据规模、数据质量、数据类型等等。这些差异会导致模型在微调过程中难以兼顾所有技能的开发。

传统的做法往往限制数据集的使用，以防止模型被大型数据集“淹没”。然而，这种做法限制了所有可用数据的利用。一些研究尝试通过调整数据集的分布来解决这个问题，但这些方法往往需要大量的超参数调整，并且忽略了数据集之间的相互作用以及模型学习的动态变化。

“技能混合”框架：如何优化数据使用？

为了解决上述问题，本文提出了一种名为“技能混合”（MOS）的强化学习框架。MOS 框架的核心思想是训练一个“评分网络”，它能够根据模型当前的学习状态，动态调整对不同数据集的采样概率。

图 1 展示了 MOS 框架的整体流程。模型在多个数据集上进行微调，每个数据集都包含特定的技能信息。评分网络根据模型当前的学习状态，动态调整对不同数据集的采样概率，从而引导模型更有效地学习。

图 1：技能混合框架概述

MOS 框架的优势：
- 通用性： MOS 框架适用于各种 LLM 模型和数据集，无需特定模型或数据集的先验知识。
- 自动优化： MOS 框架能够自动学习最佳数据使用策略，无需人工干预。
- 多角度评估： MOS 框架使用三种不同的奖励机制来评估数据集的价值，包括可迁移性、难度和学习轨迹。
奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

1. 可迁移性： 数据集之间的相似性越高，它们对模型的贡献就越大。MOS 框架使用余弦相似度来衡量数据集之间的相似性，并将其作为奖励机制之一。

2. 难度： 数据集的难度越高，模型需要投入更多的训练努力才能学好。MOS 框架使用困惑度来衡量数据集的难度，并将其作为奖励机制之一。

3. 学习轨迹： 模型在微调过程中，对不同数据集的学习进度会有所不同。MOS 框架使用指数移动平均来追踪模型的学习轨迹，并将其作为奖励机制之一。

实验结果：显著提升模型性能

为了验证 MOS 框架的有效性，本文在两个常用的基准数据集（MMLU 和 MT-bench）上，使用三种不同的 LLM 模型（QWEN1.5-0.5B、GEMMA-2B 和 LLAMA-3-8B）进行了实验。结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

表 1：不同模型在不同数据集上的性能比较

模型数据集 MOS 框架对照组
QWEN1.5-0.5B MMLU 35.13 32.82
GEMMA-2B MMLU 44.49 41.86
LLAMA-3-8B MMLU 63.85 60.97
QWEN1.5-0.5B MT-bench 22.27 23.40
GEMMA-2B MT-bench 31.56 30.88
LLAMA-3-8B MT-bench 61.54 59.64

未来展望：任务特定微调

除了通用微调之外，MOS 框架还可以应用于任务特定微调。本文提出了一种名为“MOSPEC”的变体，它能够有效地利用各种数据集来完成特定任务。

总结

本文提出了一种名为“技能混合”（MOS）的通用、模型无关的强化学习框架，它能够自动优化数据使用，提升 LLM 的整体性能。MOS 框架通过动态调整对不同数据集的关注程度，确保 LLM 能够全面、有效地发展各种技能。实验结果表明，MOS 框架能够显著提升模型的整体性能，并且能够加速模型的训练收敛速度。

参考文献
- Bai, Y., et al. (2023). Qwen: Towards Open-source, Efficient, and High-performance Large Language Models. arXiv preprint arXiv:2305.16255.
- Colson, B., et al. (2007). Bilevel programming: A survey. Journal of Optimization Theory and Applications, 130(2), 229-252.
- Conneau, A., et al. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 820-830).
- Ding, L., et al. (2023). A Comprehensive Study of Instruction Tuning for Large Language Models. arXiv preprint arXiv:2305.00161.
- Hendrycks, D., et al. (2021a). Measuring Massive Language Models’ Ability to Reason. arXiv preprint arXiv:2108.08404.
- Longpre, S., et al. (2023). In-context Learning and Induction Heads: A Unified Perspective. arXiv preprint arXiv:2305.13091.
- Mesnard, T., et al. (2024). GEMMA: A 2B Parameter Open-Source Language Model. arXiv preprint arXiv:2401.02348.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
- Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
- Sanh, V., et al. (2022). Multitask Prompted Training for Large Language Models. arXiv preprint arXiv:2205.08310.
- Touvron, J., et al. (2023a). LLaMA: Open and Efficient Large Language Models. arXiv preprint arXiv:2302.13971.
- Touvron, J., et al. (2023b). BLOOM: A 176B-parameter Open-access Multilingual Language Model. arXiv preprint arXiv:2211.05100.
- Wang, S., et al. (2020a). Differentiable Data Selection for Efficient Training of Deep Neural Networks. arXiv preprint arXiv:2002.05689.
- Wei, J., et al. (2022). Finetuned Language Models are Zero-Shot Learners. arXiv preprint arXiv:2205.05131.
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4), 229-256.
- Wu, M., et al. (2021). Towards Understanding the Transferability of Knowledge in Multi-task Learning. arXiv preprint arXiv:2106.04803.
- Yue, Y., et al. (2023). Math-Aware Language Models: Towards Reasoning about Mathematical Concepts. arXiv preprint arXiv:2303.11989.
- Yu, H., et al. (2023). Towards Robust and Generalizable Mathematical Reasoning with Large Language Models. arXiv preprint arXiv:2303.17529.
- Zheng, Z., et al. (2023). MT-bench: A Human-Centric Evaluation Benchmark for Multilingual Text Understanding. arXiv preprint arXiv:2303.16166.
2024 年 6 月 17 日
让大型语言模型更会思考：链式偏好优化 (CPO)
大型语言模型（LLM）的最新进展表明，构建推理链对于提高其解决问题的能力至关重要。其中，链式思维 (CoT) 方法通过提示 LLM 生成中间推理步骤（即想法），从而构建显式的推理路径，取得了显著效果。然而，研究表明这些路径并不总是经过深思熟虑的，也并非最优。树状思维 (ToT) 方法采用树搜索来广泛探索推理空间，并找到 CoT 解码可能忽略的更好的推理路径。然而，这种深思熟虑的代价是推理复杂度显著增加。

本文将探讨一种名为链式偏好优化 (CPO) 的新方法，它通过利用 ToT 构建的搜索树来微调 LLM，使得 CoT 能够在不增加推理负担的情况下，实现类似甚至更好的性能。CPO 利用树搜索过程中固有的偏好信息，微调 LLM 使得 CoT 推理路径的每一步都与 ToT 的推理路径保持一致。

1. 为什么要思考？

大型语言模型在处理复杂问题时，往往需要进行多步推理。例如，回答一个多步骤的逻辑推理问题，或者从多个事实中进行推理得出结论。传统的 LLM 往往只关注最终的答案，而忽略了推理过程。这会导致模型在面对复杂问题时，容易出现错误或逻辑混乱。

链式思维 (CoT) 方法试图解决这个问题。它通过提示 LLM 生成一系列中间推理步骤，并将其连接起来形成一个完整的推理路径。例如，在回答一个多步骤的逻辑推理问题时，CoT 会提示 LLM 生成一系列中间推理步骤，例如：

问题： 小明有 5 个苹果，他吃了 2 个，还剩多少个？

CoT 推理路径：
- 步骤 1: 小明吃了 2 个苹果，所以还剩 5 – 2 个苹果。
- 步骤 2: 5 – 2 等于 3。
- 步骤 3: 所以小明还剩 3 个苹果。
CoT 方法使得 LLM 的推理过程更加清晰，也更容易被人类理解。然而，CoT 方法也存在一些问题。例如，它只关注一条推理路径，而忽略了其他可能的推理路径。这会导致模型在遇到复杂问题时，容易陷入局部最优，无法找到最佳的解决方案。

2. 树状思维：更全面的思考

树状思维 (ToT) 方法试图解决 CoT 方法的局限性。它通过在推理过程的每一步生成多个分支想法，并进行自我评估以进行剪枝和规划，从而搜索最佳推理路径。例如，在回答上面的小明苹果问题时，ToT 可能生成以下推理路径：

ToT 推理路径：
- 步骤 1:
  - 想法 1: 小明吃了 2 个苹果，所以还剩 5 – 2 个苹果。
  - 想法 2: 小明还剩 5 – 2 个苹果。
  - 想法 3: 小明还剩 3 个苹果。
- 步骤 2:
  - 想法 1: 5 – 2 等于 3。
  - 想法 2: 5 – 2 等于 4。
- 步骤 3:
  - 想法 1: 所以小明还剩 3 个苹果。
  - 想法 2: 所以小明还剩 4 个苹果。
ToT 方法会对每个想法进行评估，并选择最优的想法继续进行推理。最终，它会找到一条最佳的推理路径，并给出最终的答案。

ToT 方法能够有效地提高 LLM 的推理能力，但它也存在一个问题：推理复杂度过高。由于它需要在每一步生成多个想法并进行评估，因此推理速度会显著降低。

3. 链式偏好优化：兼顾效率和效果

链式偏好优化 (CPO) 方法试图在 ToT 方法的基础上，找到一种平衡效率和效果的方法。它通过利用 ToT 构建的搜索树来微调 LLM，使得 CoT 能够在不增加推理负担的情况下，实现类似甚至更好的性能。

CPO 的核心思想是利用 ToT 搜索过程中固有的偏好信息。ToT 在每一步都会生成多个想法，并根据其评估结果进行剪枝。这意味着 ToT 实际上已经对所有中间想法进行了偏好排序：出现在最佳推理路径中的想法应该比没有出现在最佳推理路径中的想法更受偏好。

CPO 利用这种偏好信息来训练 LLM。它通过将 ToT 中的每个想法标记为“偏好”或“非偏好”，并将其作为训练数据，来训练 LLM 生成与 ToT 偏好一致的推理路径。

4. CPO 的优势

CPO 具有以下优势：
- 提高 LLM 的推理能力： CPO 能够有效地提高 LLM 的推理能力，使其在解决复杂问题时能够找到更好的解决方案。
- 降低推理复杂度： CPO 能够在训练阶段利用 ToT 的偏好信息，从而在推理阶段保持 CoT 的低延迟，避免 ToT 带来过高的推理复杂度。
- 无需额外的人工标注数据： CPO 不需要额外的人工标注数据，仅需利用 ToT 生成的搜索树即可进行训练，这在资源有限的情况下非常有用。
5. 未来展望

CPO 方法为提高 LLM 的推理能力提供了新的思路。未来，我们可以进一步研究以下方向：
- 探索更有效的偏好信息收集方法： 可以研究更有效的偏好信息收集方法，例如利用人类反馈或其他 LLM 的评估结果来收集偏好信息。
- 将 CPO 应用于其他推理任务： 可以将 CPO 应用于其他推理任务，例如代码生成、文本摘要等。
- 研究 CPO 与其他推理方法的结合： 可以研究 CPO 与其他推理方法的结合，例如结合神经网络搜索 (NAS) 来优化 LLM 的推理结构。
Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何提高大型语言模型（LLMs）在解决复杂问题时的逻辑推理能力。具体来说，论文关注的是链式推理（Chain-of-Thought，CoT）解码方法，这种方法通过生成显式的逻辑推理路径来帮助LLMs解决问题。然而，研究发现CoT方法并不总是能够找到最优的推理路径，有时会出现非故意和非最优的推理方式。为了解决这个问题，论文提出了一种新的优化方法，称为“链式偏好优化”（Chain of Preference Optimization，CPO），旨在通过利用树状推理（Tree-of-Thought，ToT）方法构建的搜索树中的固有偏好信息，来微调LLMs，使其CoT推理路径与ToT的推理路径对齐，从而提高推理性能，同时避免了ToT方法带来的显著推理复杂性增加。

Q: 有哪些相关研究？

A: 论文中提到了以下几类相关研究：
1. 大型语言模型（LLMs）的推理能力提升：研究表明，当LLMs被提示进行多步推理时，它们的表现会更好。例如，通过后编辑推理路径或访问外部知识来改进生成的推理路径。
2. 非线性推理结构：与CoT方法不同，一些研究将线性推理结构转换为非线性格式，如树或图，并结合深度优先搜索（DFS）等搜索算法。
3. LLMs的自我改进：使用强化学习（RL）技术，通过将LLMs视为RL代理，与人类反馈对齐，以改进模型性能。一些方法使用LLMs自生成数据来增强微调过程。
4. 蒙特卡洛树搜索（MCTS）在LLMs中的应用：MCTS是一种在复杂决策环境中导航的强大算法，已被证明可以增强LLMs的解码过程。
5. 直接偏好优化（DPO）：DPO是一种直接优化LLM以符合偏好数据的方法，例如人类反馈。它将传统的强化学习的奖励建模和微调阶段重新构想为一个单一的优化问题。
6. 链式推理（CoT）和树状推理（ToT）：CoT方法通过生成中间推理步骤来构建显式的推理路径，而ToT方法则通过树搜索来探索多个推理路径，并进行自我评估以寻找最优推理路径。
这些研究为本文提出的链式偏好优化（CPO）方法提供了理论和技术背景。CPO方法借鉴了这些研究的成果，特别是利用ToT方法中的树搜索过程中产生的偏好信息，并通过DPO算法来训练LLMs，以提高其推理能力。

Q: 论文如何解决这个问题？

A: 论文通过提出一种新的优化方法——链式偏好优化（Chain of Preference Optimization, CPO）来解决这个问题。CPO方法的核心思想是利用树状推理（Tree-of-Thought, ToT）过程中产生的固有偏好信息，来指导和优化CoT方法的推理路径。具体来说，CPO方法包括以下几个关键步骤：
1. 生成偏好思想对：在ToT的树搜索过程中，每个推理步骤都会生成多个候选思想，并根据其评估质量进行剪枝。CPO方法将这些候选思想中的优选思想（即最终选择的推理路径中的思想）标记为“偏好思想”，而未被选择的思想则标记为“非偏好思想”。
2. 构建偏好数据：对于每个推理步骤，CPO根据ToT的搜索树结构构建成对的偏好思想数据。这些数据包括偏好思想和相应的非偏好思想，它们形成了用于训练的偏好对。
3. 直接偏好优化（DPO）训练：使用DPO算法，CPO方法训练LLMs以对齐这些偏好对。DPO的目标是最大化偏好响应的概率比，从而使LLMs在推理时能够生成ToT方法所偏好的路径。
4. 避免高推理延迟：与ToT方法在推理时需要进行搜索不同，CPO将计算负担转移到训练阶段，从而在推理时保持CoT的低延迟特性。
5. 实验验证：通过在多个数据集上进行广泛的实验，论文证明了CPO方法在提高LLMs解决复杂问题的性能方面是有效的，尤其是在问答、事实验证和算术推理等任务上。
总的来说，CPO方法通过在训练阶段利用ToT的树搜索过程中的偏好信息，使得LLMs能够在推理时生成更优的推理路径，同时避免了ToT方法在实际应用中面临的高计算复杂性问题。

Q: 论文做了哪些实验？

A: 论文中进行了广泛的实验来验证链式偏好优化（CPO）方法的有效性。实验设置如下：
1. 数据集和评估指标：研究集中在三种类型的推理任务上：问答（QA）、事实验证和算术推理。使用了包括Bamboogle、WikiMultiHopQA、HotpotQA、Fever、Feverous、Vitaminc和SVAMP等七个数据集。评估指标包括准确率和每实例生成答案的平均延迟。
2. 基线模型：为了证明CPO的有效性，论文考虑了以下基线模型：CoT、ToT和TS-SFT。
3. 实验设置：实验基于广泛使用的LLMs，特别是LLaMA27B/13B和Mistral-7B。为了高效的微调，使用了Low-Rank Adaptation (LoRA)适配器。设置了正则化控制器β、生成新思想的数量、剪枝后保留的思想数量等参数。
4. 整体结果：在各种推理任务上，CPO在提高基础LLM的推理能力方面表现出了显著的效果，平均改进达到了4.3%，并且在不牺牲推理速度的情况下与ToT方法相比具有可比性或更优的性能。
5. 组件级评估：分析了选择非偏好思想的不同方法对模型性能的影响，以及训练数据数量对优化的影响。
6. 数据混合敏感性：探索了CPO方法在不同数据设置下的性能，包括单任务数据、统一QA数据和混合类型数据。
7. 迭代学习：探索了CPO是否可以通过对迭代学习进行进一步改进，尝试了两种不同的迭代训练策略：SFT+CPO和CPO only。
8. 效果分析：探讨了非偏好信息对模型性能的影响，以及链级优化的重要性。
这些实验结果表明CPO方法能够有效地提高LLMs在复杂问题解决中的推理能力，并且在效率上具有优势。论文还对实验结果进行了深入分析，以理解CPO方法的工作原理和潜在的改进空间。

Q: 有什么可以进一步探索的点？

A: 论文在最后一部分提出了一些未来工作的方向，以下是可以进一步探索的点：
1. 结合其他推理算法：作者提出将CPO与图状推理（Graph-of-Thoughts）等其他推理算法结合的可能性，以进一步提升LLMs的推理能力。
2. 弱到强模型的对齐：探索使用弱LLM来评估强LLM的可能性，以实现弱到强的对齐（weak-to-strong alignment），这可能有助于提高模型的整体性能。
3. 迭代学习：论文中提到了迭代学习可能带来性能的提升，但同时也注意到了ToT性能的不一致性。未来的工作可以更深入地研究迭代学习策略和模型性能之间的关系。
4. 输出多样性与搜索空间：论文指出，模型经过微调后可能会减少输出的多样性，这可能会影响ToT方法寻找更好推理路径的能力。未来的研究可以探索如何在提高性能的同时保持或增加输出的多样性。
5. 跨模态应用：论文中的方法主要针对文本语言模型，未来的工作可以探索将CPO方法应用于视觉-语言模型或其他跨模态模型。
6. 效率与可扩展性：尽管CPO在提高性能的同时保持了较低的推理延迟，但ToT生成训练数据的过程仍然耗时。研究如何提高CPO方法的效率和可扩展性是一个重要的方向。
7. 伦理和社会影响：论文提到了CPO可能被用于恶意应用的问题，未来的工作需要考虑如何确保技术的安全和伦理使用，以及如何防止潜在的滥用。
8. 更广泛的任务和领域：论文中的实验主要集中在问答、事实验证和算术推理任务上。未来的研究可以在更广泛的任务和领域中测试CPO方法的有效性。
9. 模型解释性：提高模型的可解释性，帮助研究者和用户理解CPO优化过程中模型是如何学习和做出决策的。
10. 鲁棒性和泛化能力：研究CPO方法在不同数据分布、领域和任务中的鲁棒性和泛化能力，确保模型在面对新情况时仍能保持良好性能。
Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点：
1. 问题识别：论文指出大型语言模型（LLMs）在使用链式推理（CoT）解码时，并不总能生成最优的逻辑推理路径，这限制了它们解决复杂问题的能力。
2. 方法提出：为了解决上述问题，论文提出了一种新的优化方法——链式偏好优化（CPO），该方法利用树状推理（ToT）过程中产生的偏好信息来微调LLMs。
3. CPO原理：CPO通过在ToT的树搜索过程中产生的偏好信息，构建每个推理步骤的偏好思想对，然后使用直接偏好优化（DPO）算法来训练LLMs，使其推理路径与ToT中的偏好对齐。
4. 实验验证：论文通过在多个数据集上进行实验，验证了CPO方法在提高LLMs的推理能力方面是有效的。实验结果表明，CPO平均提高了4.3%的准确率，并且在推理延迟上远低于ToT方法。
5. 组件级评估：论文还对CPO的不同组件进行了评估，包括选择非偏好思想的策略、训练数据的数量、数据混合的敏感性等，以深入理解CPO的工作原理和性能影响因素。
6. 未来工作：论文提出了一些未来研究方向，如将CPO与其他推理算法结合、探索弱到强模型的对齐、提高CPO的效率和可扩展性等。
7. 社会影响和局限性：论文讨论了CPO可能带来的社会影响，包括其在安全性和伦理方面的应用潜力，以及当前方法的局限性，如ToT数据生成的耗时问题。
8. 代码开源：论文提供了CPO方法的代码，以便其他研究者复现和进一步研究。
总的来说，这篇论文通过提出CPO方法，为提高LLMs的推理能力提供了一种新的视角，并在理论和实践层面都进行了深入的探讨和验证。
2024 年 6 月 17 日
记忆大师：用世界模型征服记忆任务
近年来，基于模型的强化学习（MBRL）在解决各种任务中展现出强大的能力。然而，现有的MBRL代理在处理长期依赖关系方面存在困难，这限制了它们在涉及行动和结果之间长时间间隔的任务，或需要回忆远距离观察结果来指导当前行动的任务中的表现。为了克服这一挑战，本文介绍了一种名为“回忆想象”（Recall to Imagine，R2I）的新方法，它将一种新型状态空间模型（SSM）整合到MBRL代理的世界模型中，以增强长期记忆和长范围信用分配能力。

长期记忆的困境：世界模型的挑战

在强化学习中，世界模型通过捕捉环境的动态变化，赋予代理感知、模拟和规划的能力。MBRL代理通过学习过去经验中的世界模型，能够“想象”其行动的未来后果，并做出明智的决策。

然而，MBRL面临着两个关键挑战：
- 长期依赖关系：世界模型需要准确地模拟环境的演化和未来奖励，并整合代理在长时间范围内的行动。由于世界模型的网络架构限制，难以学习长距离依赖关系，导致长期记忆和信用分配问题。
- 信用分配问题：需要评估行动对未来奖励的影响，这在长时间间隔的任务中尤其困难。
S4模型：突破长期依赖关系的利器

近年来，状态空间模型（SSM）在监督学习和自监督学习任务中展现出捕捉超长序列依赖关系的能力。其中，S4模型凭借其优异的性能，重新定义了长距离序列建模的研究方向。S4模型源于一个时间不变的线性动力系统，它学习状态矩阵，并能够有效地捕捉高达16K长度的依赖关系，超越了先前方法的局限性。

回忆想象：赋予世界模型记忆能力

R2I方法首次将S4模型的变体应用于MBRL，为代理提供了强大的长期记忆能力。R2I是一种通用且计算效率高的方法，在各种记忆领域展现出最先进的性能。

R2I的核心思想：
- S3M（Structured State-Space Model）：R2I将S4模型整合到DreamerV3的世界模型中，构建了S3M。S3M通过并行计算和循环推理模式，实现了快速学习和高效的轨迹模拟。
- 非循环表示模型：为了实现并行计算，R2I将表示模型从循环模型转变为非循环模型，使每个时间步的推断能够独立进行。
- SSM的并行计算：R2I采用并行扫描方法，而非卷积方法，来计算SSM的隐藏状态，这使得模型能够更有效地处理长序列数据，并支持隐藏状态的重置。
- 演员-评论家结构：R2I在演员-评论家结构中，将SSM的隐藏状态传递给策略网络，而不是使用GRU的隐藏状态。这对于解决记忆密集型环境中的长期依赖关系至关重要。
R2I的优异表现

R2I在各种记忆领域展现出优异的性能，包括：
- POPGym：R2I在POPGym中取得了最先进的性能，这是一个专门设计用来测试长期记忆能力的强化学习环境。
- 行为套件（BSuite）：R2I在BSuite中超越了其他基准方法，BSuite是一套用于评估强化学习代理能力的标准化任务。
- 记忆迷宫：R2I在记忆迷宫中超越了人类，这是一个需要极强的长期记忆能力才能解决的复杂3D环境。
此外，R2I在经典的强化学习任务中也展现出良好的性能，例如：
- Atari：R2I在Atari游戏中取得了与其他最先进方法相当的性能。
- DMC：R2I在DMC中也展现出良好的性能，DMC是一套用于评估强化学习代理在连续控制任务中的能力的标准化环境。
总结

R2I方法通过将S4模型整合到世界模型中，赋予了MBRL代理强大的长期记忆能力。R2I在各种记忆领域展现出最先进的性能，并超越了人类在记忆迷宫中的表现。R2I的通用性和计算效率使其成为解决长期记忆和信用分配问题的强大工具。

参考文献
- Hafner, D., Lillicrap, T. P., Norouzi, M., & Schmidhuber, J. (2023). DreamerV3: Learning and planning in
  large, stochastic worlds. arXiv preprint arXiv:2302.04023.
- Gu, S., Hoffman, M., Edwards, H., Roberts, A., Brunskill, E., & Lake, B. M. (2021a). S4: Deep
  learning on symbolic sequences. arXiv preprint arXiv:2106.03107.
- Smith, S. L., Gupta, A., Gu, S., & Lake, B. M. (2023). Efficiently modeling long sequences with
  state space models. arXiv preprint arXiv:2302.10871.
2024 年 6 月 16 日
让视觉语言模型拥有空间推理能力：SpatialVLM 的探索
视觉语言模型（VLM）在理解和回答图像相关的文本问题方面取得了显著进展，但它们在三维空间推理方面仍然存在局限性。例如，它们难以识别物体之间的距离或大小差异等定量关系。为了赋予 VLM 空间推理能力，来自 Google DeepMind 和 MIT 等机构的研究人员提出了 SpatialVLM，并将其成果发表在 CVPR 2024 上。

SpatialVLM 的核心思想是通过训练数据来弥补 VLM 在空间推理方面的不足。 研究人员认为，现有 VLM 在空间推理能力有限，并非由于其架构的根本缺陷，而是因为缺乏大规模的训练数据。因此，他们开发了一个自动化的三维空间 VQA 数据生成框架，利用真实世界图像，生成高达 20 亿个 VQA 例子，并以此训练 SpatialVLM。

数据生成框架的核心是将二维图像提升到三维度量空间的点云。 这一过程利用了图像中的深度信息，将每个像素映射到三维空间中的一个点，并赋予每个点相应的坐标。研究人员还开发了专门的算法，用于生成关于物体位置、距离、大小等空间关系的 VQA 问题，并根据点云信息生成相应的答案。

SpatialVLM 的训练过程包括将合成数据与现有的 VLM 训练数据混合在一起。 通过这种方式，SpatialVLM 能够学习到基本的直接空间推理能力，例如识别物体之间的相对位置、距离和大小等。

SpatialVLM 的优势在于它可以进行多步骤的空间推理。 由于其具备基本的直接空间推理能力，SpatialVLM 可以与大型语言模型 (LLM) 协同工作，进行更复杂的推理任务。例如，它可以回答诸如“蓝色可乐罐、红色可乐罐和绿色海绵是否大致形成一个等边三角形”这样的问题。

SpatialVLM 还具有在机器人学领域应用的潜力。 由于 SpatialVLM 可以对空间进行定量推理，它可以作为机器人任务的精细奖励标注器。例如，SpatialVLM 可以根据机器人手到可乐罐的距离，生成单调递减的奖励信号，用于强化学习。

SpatialVLM 的研究成果为视觉语言模型的发展开辟了新的方向。 它证明了通过大规模合成数据训练 VLM，可以显著提升其空间推理能力，并为 VLM 在机器人学、虚拟现实等领域的应用提供了新的可能性。

参考文献:
- Chen, Boyuan, et al. “SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities.” arXiv preprint arXiv:2401.12168 (2024).
- VQASynth. GitHub repository. https://github.com/remyxai/VQASynth/tree/main.
2024 年 6 月 16 日
长文本大模型：一场新的军备竞赛
近年来，人工智能领域掀起了一股大模型热潮，而最近，长文本大模型的出现，更是将这场军备竞赛推向了新的高度。

Kimi Chat的横空出世，让业界意识到长文本大模型的巨大潜力。它能够处理高达200万字的上下文，这在以往是难以想象的。

百度文心一言也紧随其后，宣布下个月版本升级，将开放200万-500万字的长度。360智脑更是内测500万字，并计划将其整合到360AI浏览器中。阿里通义千问也开放了1000万字的处理能力。

海外方面，GPT4-turbo支持128K长度，Claude也支持200K。

这场长文本大模型的竞赛，究竟意味着什么？

长文本：大模型的“内存”

我们可以将大模型本身看作一个操作系统，它支持的文本上下文长度就如同操作系统的内存。内存越大，大模型一次性能够处理的信息就越多，也就能更好地理解和处理复杂的文本内容。

以往的大模型，由于内存有限，只能通过实时读写硬盘获取信息，类似于RAG（Retrieval-Augmented Generation）技术。这种方式需要先进行检索，提取相关信息，再进行处理和输出答案。

长文本大模型的出现，则意味着大模型拥有了更大的“内存”，能够直接处理更长的文本，无需依赖外部检索，从而提高效率和准确性。

长文本处理：两条路

目前，长文本处理主要分为两种方式：
- 有损压缩：对上下文进行压缩，以减少内存占用。
- 无损工程化硬怼：通过工程优化，尽可能保留原始信息。
Kimi号称其200K超长上下文是无损实现，但具体的技术方案尚未公开。

工程优化：突破瓶颈

如何实现无损超长上下文？ 这成为了众多研究者关注的焦点。

知乎上的一些技术方案推测，主要集中在工程优化方面，例如：
- 优化内存管理：利用更先进的内存管理技术，例如KV Cache，来提高内存利用率。
- 优化Attention计算：例如Flash Attention和Ring Attention，利用GPU硬件特性或分布式计算，降低计算量和内存占用。
Dr.Wu在知乎上的回答非常精辟：“这个领域的研究十分割裂，容易出现NLP领域的paper一顿优化，kv cache一点没变，去优化那个attention的计算量，找错了瓶颈……”

以往的优化主要集中在算法层面，例如对Attention机制进行改进，以减少计算量。但这些方法往往会导致信息丢失，属于有损压缩。

Full Attention仍然是主流的计算方式，但其计算量巨大，尤其是对于长文本而言。

Full Attention：计算量之殇

Attention机制的计算公式如下：

$Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

其中，Q、K、V分别由文本输入向量乘以对应权重矩阵产生，维度为[seq_length, dim]。

当上下文长度很长时，seq_length会非常大，导致QK^T矩阵的维度也极其庞大，需要大量的内存空间来存储，并进行后续计算。

优化方案：Flash Attention & Ring Attention

Flash Attention利用GPU硬件特性，将计算尽可能地在SRAM这一层完成，降低GPU内存读取/写入。

Ring Attention则采用分布式计算，将Q、K、V矩阵分割到不同的硬件上，分别计算Attention，最后进行聚合，避免创建庞大的矩阵，从而降低内存占用和计算量。

长文本大模型：未来可期

长文本大模型的出现，为我们打开了新的视野。它不仅能够处理更长的文本，还能更好地理解和分析复杂的信息。

未来，随着技术的发展，长文本大模型将会在更多领域发挥重要作用，例如：
- 更精准的机器翻译：能够理解更长的上下文，翻译更加准确自然。
- 更强大的对话系统：能够进行更深入的对话，理解更复杂的语境。
- 更有效的文本摘要：能够提取更准确、更完整的文本信息。
长文本大模型的未来充满希望，让我们拭目以待！

参考文献
2024 年 6 月 16 日
让大型语言模型更懂“聊天”：StreamingLLM 的无限对话
大型语言模型（LLM）已经彻底改变了人们的工作方式。以 GPT 系列模型为例，它被广泛应用于各种场景，帮助我们快速解答问题、调试代码等等，成为了许多应用的得力助手。

然而，LLM 在实际应用中也面临着挑战。其中一个重要问题是，现有的 LLM 不适合用于流式应用，例如长时间的对话聊天。这是因为 LLM 在训练时会受到注意力窗口的限制，无法处理超过预定义训练序列长度的对话。此外，LLM 还会消耗大量的内存，这在实际应用中也是一个很大的问题。

为了解决这些问题，研究人员提出了 StreamingLLM 框架。

StreamingLLM：突破传统 LLM 的限制

StreamingLLM 是由 Xiao 等人于 2023 年提出的一种框架，旨在解决流式应用中的问题。现有的方法之所以面临挑战，是因为 LLM 在预训练时会受到注意力窗口的限制。

窗口注意力技术虽然效率很高，但在处理超过缓存大小的文本时就会失效。为了解决这个问题，研究人员尝试将几个初始 token 的键值对（KV）与最近的 token 结合起来，并将其称为“注意力汇聚”。下图展示了 StreamingLLM 与其他技术的对比：

[StreamingLLM vs Existing Method (Xiao et al. (2023))]

我们可以看到，StreamingLLM 利用注意力汇聚方法来解决挑战。注意力汇聚（初始 token）用于稳定注意力计算，并与最近的 token 结合起来，从而提高效率并在更长的文本上保持稳定性能。

此外，现有的方法在内存优化方面也存在问题。然而，LLM 通过在最近 token 的键值对上维护一个固定大小的窗口来避免这些问题。作者还提到，StreamingLLM 比滑动窗口重新计算基线快 22.2 倍。

从性能方面来看，StreamingLLM 在基准数据集上的准确率远超其他方法，如下表所示：

[StreamingLLM accuracy (Xiao et al. (2023))]

上表表明，StreamingLLM 的准确率可以超过其他方法。因此，StreamingLLM 在许多流式应用中具有巨大的潜力。

如何尝试 StreamingLLM？

您可以访问 StreamingLLM 的 GitHub 页面，将代码库克隆到您的目标目录，并在 CLI 中使用以下代码设置环境：
```
conda create -yn streaming python=3.8
conda activate streaming

pip install torch torchvision torchaudio
pip install transformers==4.33.0 accelerate datasets evaluate wandb scikit-learn scipy sentencepiece

python setup.py develop
```
然后，您可以使用以下代码运行带有 LLM 流式解码功能的 Llama 聊天机器人：
```
CUDA_VISIBLE_DEVICES=0 python examples/run_streaming_llama.py  --enable_streaming
```
下图展示了 StreamingLLM 在更长的对话中的表现：

[StreamingLLM showed outstanding performance in more extended conversations (Streaming-llm)]

总结

在流式应用中使用 LLM 可以帮助企业在长远发展中获得优势，但实现起来也面临着挑战。大多数 LLM 无法超过预定义的训练序列长度，并且会消耗大量的内存。Xiao 等人 (2023) 开发了一个名为 StreamingLLM 的新框架来解决这些问题。使用 StreamingLLM，现在可以在流式应用中使用 LLM 了。
2024 年 6 月 16 日
大型语言模型的无限对话：StreamingLLM 如何实现高效流式解码
大型语言模型（LLM）已经成为自然语言处理领域不可或缺的一部分，但它们在处理长文本时却面临着巨大的挑战。传统的 LLM 在解码过程中需要缓存所有先前解码的 token 的键值对（KV），这会导致内存占用量随着对话长度的增加而线性增长，并且模型的性能也会受到限制。

StreamingLLM 应运而生，它是一种高效的框架，可以使 LLM 在不进行任何微调的情况下，将有限长度的注意力窗口推广到无限序列长度，从而实现高效的流式解码。

窗口注意力的瓶颈：为什么需要 StreamingLLM？

为了解决传统 LLM 解码过程中的内存占用和性能下降问题，研究人员提出了窗口注意力机制，它只缓存最近的 KV，从而减少了内存占用。然而，当文本长度超过缓存大小时，窗口注意力机制就会失效。

StreamingLLM 的核心思想是利用注意力汇聚（Attention Sink）现象。研究人员发现，即使一些初始 token 在语义上并不重要，但模型仍然会对它们保持很强的注意力。这种现象被称为注意力汇聚。

Attention Sink 的发现：解开窗口注意力的秘密

通过分析 LLM 在处理长文本时的注意力机制，研究人员发现了一个有趣的现象：模型会将大量的注意力集中在初始 token 上，即使这些 token 在语义上并不重要。他们将这种现象称为“注意力汇聚”。

为什么会出现注意力汇聚？ 这是因为 Softmax 函数的特性，它要求所有上下文 token 的注意力分数之和为 1。即使当前查询在许多之前的 token 中没有强匹配，模型仍然需要将这些不必要的注意力值分配到某个地方，以使它们加起来为 1。

初始 token 成为注意力汇聚的原因也很直观： 由于自回归语言模型的特性，初始 token 对所有后续 token 都可见，而后续 token 只能对有限的后续 token 可见。因此，初始 token 更容易被训练成注意力汇聚，从而捕获不必要的注意力。

StreamingLLM 的工作原理：高效利用注意力汇聚

StreamingLLM 框架基于以下几个关键原则：
- 保留注意力汇聚： 保留初始 token 的 KV，以弥补窗口注意力机制的不足。
- 滑动窗口： 使用滑动窗口机制，只缓存最近的 token 和注意力汇聚，从而减少内存占用。
- 预训练优化： 在预训练过程中添加一个占位符 token 作为专门的注意力汇聚，进一步提高流式部署的性能。
StreamingLLM 的优势：高效、稳定、无需微调
- 高效的流式解码： StreamingLLM 可以实现高效的流式解码，即使在处理非常长的文本时，也能保持良好的性能。
- 无限序列长度： StreamingLLM 可以处理无限长度的文本，突破了传统 LLM 的限制。
- 无需微调： StreamingLLM 不需要对 LLM 进行任何微调，就可以实现高效的流式解码。
实验结果：实证验证 StreamingLLM 的有效性

研究人员对多个流行的 LLM 家族（包括 Llama-2、MPT、Falcon 和 Pythia）进行了实验，结果表明：
- StreamingLLM 在处理长文本时，其性能与滑动窗口重新计算基线相当，而传统的窗口注意力机制则会失效。
- StreamingLLM 可以处理超过 400 万个 token 的文本，并且在处理超长文本时仍然保持稳定。
- 在预训练过程中添加一个专门的注意力汇聚 token 可以进一步提高 StreamingLLM 的性能。
StreamingLLM 的应用场景：无限对话、实时翻译、文本摘要

StreamingLLM 在许多场景中都有广泛的应用，例如：
- 多轮对话： StreamingLLM 可以用于构建高效的聊天机器人，实现流畅的对话交互。
- 文本摘要： StreamingLLM 可以用于对长文本进行摘要，并保留关键信息。
- 实时翻译： StreamingLLM 可以用于实时翻译，提供流畅的翻译体验。
未来展望：更强大、更智能的流式解码

StreamingLLM 的出现为 LLM 的流式应用开辟了新的可能性。未来，研究人员将继续探索如何进一步优化 StreamingLLM 框架，使其在更多场景中发挥更大的作用。

https://arxiv.org/pdf/2309.17453
2024 年 6 月 16 日
大模型推理加速新突破：FlashDecoding++
大型语言模型 (LLM) 正在改变世界，从生成文本到翻译语言，再到编写代码，LLM 的应用范围越来越广。然而，LLM 的推理速度一直是制约其应用的关键因素。为了解决这个问题，研究人员一直在探索各种方法来加速 LLM 推理。

本文将介绍一篇名为 “FlashDecoding++: Faster Large Language Model Inference on GPUs” 的论文，该论文提出了一种新的 LLM 推理加速技术，可以在 GPU 上显著提高推理速度。

LLM 推理加速的挑战

加速 LLM 推理面临着三大挑战：
1. 同步部分 Softmax 更新： Softmax 操作需要对每个部分 Softmax 结果进行同步更新，这导致了 LLM 中注意力计算的约 20% 的开销。
2. 扁平 GEMM 的计算利用率低下： LLM 推理中执行 GEMM 的矩阵形状是扁平的，导致计算利用率低下，在之前的设计中，填充零后会导致超过 50% 的性能损失。
3. 静态数据流导致的性能损失： LLM 中的内核性能取决于不同的输入数据特征、硬件配置等。单一且静态的数据流会导致 LLM 推理中不同形状的 GEMM 出现 50.25% 的性能损失。
FlashDecoding++ 的解决方案

FlashDecoding++ 针对上述挑战提出了以下解决方案：
1. 异步 Softmax 与统一最大值： FlashDecoding++ 引入了一种统一最大值技术，用于不同的部分 Softmax 计算，从而避免同步。
2. 双缓冲的扁平 GEMM 优化： FlashDecoding++ 指出不同形状的扁平 GEMM 面临着不同的瓶颈。然后，引入了双缓冲等技术。
3. 硬件资源自适应的启发式数据流： FlashDecoding++ 使用不同的硬件资源，考虑输入动态，启发式地优化数据流。
性能提升

FlashDecoding++ 的优化策略使其在 NVIDIA 和 AMD GPU 上都取得了显著的性能提升，与 Hugging Face 实现相比，分别实现了高达 4.86 倍和 2.18 倍的加速。与主流 LLM 上最先进的 LLM 推理引擎相比，FlashDecoding++ 的平均加速比为 1.37 倍。

总结

FlashDecoding++ 提出了一套全面的 LLM 推理加速解决方案，有效地解决了 LLM 推理中的三大挑战。其在主流 LLM 和硬件平台上的出色表现，为 LLM 的广泛应用提供了强有力的支持。

参考文献
- [2311.01282] FlashDecoding++: Faster Large Language Model Inference on GPUs
- Stanford CRFM
- GitHub – opengear-project/GEAR: GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM
- DistServe/distserve at main · LLMServe/DistServe · GitHub
注：本文仅对 FlashDecoding++ 论文进行了简要介绍，更多细节请参考原文。

在GPU上推理大规模语言模型（LLM）的性能至关重要，而FlashDecoding++是一款针对LLM推理的快速引擎，通过解决同步部分softmax更新、未充分利用的扁平化GEMM计算和静态数据流等挑战，实现了显着的推理加速效果。

解决同步部分softmax更新的挑战：
FlashDecoding++引入了异步softmax和统一最大值的技术，避免了在计算部分softmax结果时需要同步更新的问题。每个部分softmax结果可以独立进行处理，无需进行同步操作，从而减少了计算中的开销。

解决未充分利用的扁平化GEMM计算的挑战：
FlashDecoding++通过双缓冲技术对扁平化GEMM计算进行了优化，隐藏了内存访问延迟，提高了计算利用率。它在共享内存中分配了两个独立的缓冲区，一个缓冲区用于进行GEMM计算，而另一个缓冲区则用于加载下一个GEMM操作所需的数据。通过这种方式，计算和内存访问可以同时进行，实现了计算与存储的重叠。

解决静态数据流的挑战：
FlashDecoding++采用了启发式数据流和硬件资源适应的方法。它根据输入动态和硬件配置，在不同的线性工作负载下动态优化数据流，选择最佳的实现方式。通过根据不同工作负载的特点进行灵活调整，FlashDecoding++实现了最佳的推理性能。

性能评估：
FlashDecoding++在多个硬件平台上进行了性能评估，包括NVIDIA和AMD的GPU。与Hugging Face、vLLM、DeepSpeed、TensorRT-LLM、OpenPPL和FlashDecoding等LLM推理引擎进行了比较。结果表明，FlashDecoding++相对于这些基线引擎实现了显着的加速效果，提供了高达4.86倍的推理速度提升。
2024 年 6 月 16 日
学会数数，才能理解语言：揭秘大型语言模型中的上下文位置编码
大型语言模型（LLM）在处理文本、音频、代码等序列数据时，往往需要理解其中的顺序信息。例如，在理解一段文字时，我们需要知道每个词语的位置，才能准确地理解其含义。然而，传统的注意力机制无法直接捕捉到序列中的顺序信息，因此需要引入位置编码（PE）来解决这个问题。

传统的 PE 方法通常将每个词语的位置信息直接编码成一个向量，并将其添加到词语的表示中。这种方法虽然简单有效，但存在一个问题：它无法根据上下文来灵活地调整位置信息。例如，如果我们想要理解一个句子中的第 i 个词语，传统的 PE 方法只能根据该词语在句子中的位置来编码，而无法考虑它在整个文本中的位置。

为了解决这个问题，本文介绍了一种新的位置编码方法：上下文位置编码（CoPE）。CoPE 的核心思想是将位置信息与上下文信息结合起来，根据上下文来动态地调整位置编码。

为什么需要上下文位置编码？

想象一下，你正在阅读一篇长篇小说。你想要知道某一个人物在小说中出现的次数，你会怎么做？你可能会逐字逐句地阅读，并记录下该人物出现的次数。然而，如果你想要知道该人物在每一章中出现的次数，你可能需要先找到每章的开头和结尾，然后才能进行统计。

传统的 PE 方法就相当于逐字逐句地阅读，它只能根据每个词语在句子中的位置来进行编码。而 CoPE 则相当于先找到每章的开头和结尾，然后根据上下文来动态地调整位置编码。

CoPE 的工作原理

CoPE 的工作原理可以概括为以下几个步骤：
1. 计算门控值： 对于每个词语，CoPE 会根据其上下文信息计算一个门控值。门控值是一个介于 0 到 1 之间的数值，表示该词语是否应该被计入位置编码。
2. 计算位置值： CoPE 会根据门控值来计算每个词语的位置值。如果门控值为 1，则该词语会被计入位置编码；如果门控值为 0，则该词语不会被计入位置编码。
3. 插值位置嵌入： 由于位置值可以是分数，因此 CoPE 使用插值方法来计算位置嵌入。
CoPE 的优势

CoPE 具有以下几个优势：
1. 上下文感知： CoPE 可以根据上下文信息来动态地调整位置编码，从而更准确地反映词语在序列中的位置信息。
2. 多层级抽象： CoPE 可以同时表示不同层级的抽象信息，例如词语、句子、段落等。
3. 灵活可控： CoPE 的门控值可以根据不同的任务需求进行调整，从而实现不同的位置编码策略。
实验结果

本文对 CoPE 在多个任务上的表现进行了评估，包括：
- Flip-Flop 任务： 该任务要求模型能够记住一个序列中的最后一次写入操作。CoPE 在该任务上取得了显著的提升，尤其是在泛化能力方面。
- 选择性复制任务： 该任务要求模型能够从一个序列中选择性地复制一些词语。CoPE 在该任务上也取得了显著的提升，尤其是在处理包含大量空白词语的序列方面。
- 计数任务： 该任务要求模型能够统计一个序列中特定类型词语的个数。CoPE 在该任务上取得了显著的提升，尤其是在处理包含多个变量的序列方面。
- 语言模型任务： CoPE 在 Wikitext-103 数据集上取得了更好的语言建模效果。
- 代码模型任务： CoPE 在代码数据集上取得了更好的代码建模效果。
总结

CoPE 是一种新的位置编码方法，它可以根据上下文信息来动态地调整位置编码，从而更准确地反映词语在序列中的位置信息。CoPE 在多个任务上取得了显著的提升，表明它具有很强的实用价值。

参考文献
- Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
- Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. Proceedings of the 25th international conference on Machine learning, 160-167.
- Dai, A. M., Yang, Z., Yang, Y., Carbonell, J. G., & Salakhutdinov, R. (2019). Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.
- Dufter, A., Kreutzer, J., & Hochreiter, S. (2022). A survey of position encoding techniques in transformer models. arXiv preprint arXiv:2202.09026.
- Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, Y. N., & Rush, A. M. (2017). Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122.
- Gu, S., & Dao, T. (2023). On the importance of reasoning for language models. arXiv preprint arXiv:2306.00783.
- Haviv, I., Schuster, R., & Levy, O. (2022). Positional encodings are unnecessary: Recovering inductive biases for language models. arXiv preprint arXiv:2202.08426.
- Jiang, Z., Zhou, J., Zhang, W., Chen, Y., & Li, P. (2023). Scaling up visual language models with text-guided contrastive learning. arXiv preprint arXiv:2303.17639.
- Liu, X., Zhang, Y., Zhang, Y., & Xiong, L. (2024). Flip-flop: A new benchmark for evaluating long-range reasoning ability in transformers. arXiv preprint arXiv:2403.04103.
- Merity, S., Xiong, L., Bradbury, J., & Socher, R. (2017). Pointer generator networks. arXiv preprint arXiv:1704.04368.
- Neishi, T., & Yoshinaga, N. (2019). Recurrent neural networks with attention for long sequence modeling. arXiv preprint arXiv:1903.03334.
- Press, O., Wolf, T., & Dagan, I. (2022). On the effectiveness of positional encodings for long sequences. arXiv preprint arXiv:2205.09231.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog.
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Zoph, B. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21, 1-67.
- Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.
- Shaw, P., Uszkoreit, J., Vaswani, A., Parmar, N., Prenger, R., Dean, J., … & Parmar, N. (2018). Self-attention with relative position representations. arXiv preprint arXiv:1803.02155.
- Su, J., Zhang, X., & Xiong, L. (2024). Rotated position embedding for efficient transformer. arXiv preprint arXiv:2104.09864.
- Sukhbaatar, S., Weston, J., Fergus, R., & Sukhbaatar, S. (2015). End-to-end memory networks. arXiv preprint arXiv:1503.08895.
- Touvron, J., Lachaux, M., Bordes, A., Seleznow, P., Aziza, Y., Barbier, J., … & Jaffre, J. (2023a). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
- Touvron, J., Lachaux, M., Bordes, A., Seleznow, P., Aziza, Y., Barbier, J., … & Jaffre, J. (2023b). Llama: Open and efficient large language models. arXiv preprint arXiv:2302.13971.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 5998-6008.
- Wang, A., Yang, Y., Dai, Z., & Callan, J. (2019). Transformer-based language model with recurrent neural networks. arXiv preprint arXiv:1903.00842.
- Weston, J., Sukhbaatar, S., Sutskever, I., & Fergus, R. (2015). Memory networks. arXiv preprint arXiv:1410.3916.
- Zhao, Z., Liu, Y., & Zhou, J. (2023). A survey of position encoding techniques for long sequence modeling. arXiv preprint arXiv:2303.03246.
https://arxiv.org/pdf/2405.18719

Here’s a breakdown of the paper’s key points:

Problem:
- Traditional Position Encoding Limitations: Existing position encoding methods, like absolute and relative PE, rely on token counts as the unit of measurement. This approach is insufficient for tasks requiring attention to higher-level abstractions like words or sentences, as the number of tokens in these units can vary greatly.
- Inability to Generalize: Standard PE methods struggle to generalize to out-of-distribution scenarios where the token distribution differs from the training data.
Proposed Solution: CoPE

CoPE addresses these limitations by making position encoding context-dependent. Here’s how it works:
1. Gate Calculation: For each query token, CoPE computes a gate value for every preceding token in the sequence. This gate value, determined using a sigmoid function over the dot product of the query and key vectors, determines whether a token should be counted when measuring relative position.
- A gate value close to 1 indicates the token should be counted.
- A gate value close to 0 indicates the token should be ignored.
1. Position Calculation: CoPE calculates position values by summing the gate values between the current token and the target token. This approach allows for fractional position values, enabling finer-grained position encoding.
2. Position Embedding Interpolation: As fractional position values don’t have direct embeddings, CoPE interpolates between embeddings of the two nearest integer positions.
3. Attention Calculation: Finally, CoPE incorporates the interpolated position embeddings into the attention mechanism, allowing for context-aware position-based attention.
Advantages of CoPE:
- Contextualized Position Encoding: CoPE enables the model to learn different position encodings based on the context, allowing it to attend to various levels of abstraction (e.g., words, sentences).
- Improved Generalization: CoPE demonstrates superior generalization capabilities compared to traditional methods, especially in out-of-distribution scenarios.
Experimental Results:

The paper showcases CoPE’s effectiveness on various tasks:
- Flip-Flop Task: CoPE achieves near-perfect accuracy on both in-distribution and out-of-distribution settings, outperforming existing PE methods.
- Selective Copy Task: CoPE successfully learns to copy relevant tokens while ignoring blanks, demonstrating its ability to handle variable-length units.
- Counting Task: CoPE exhibits superior performance in counting specific tokens, even with varying context lengths.
- Language Modeling: CoPE shows improved perplexity on the WikiText-103 benchmark compared to absolute PE.
Conclusion:

CoPE presents a significant advancement in position encoding for attention mechanisms. By making position encoding context-dependent, CoPE allows models to learn more nuanced and generalizable representations of positions within sequences, leading to improved performance on a variety of tasks.
2024 年 6 月 16 日
大型语言模型的“顿悟”：揭秘上下文学习背后的机制
大型语言模型（LLM）展现出惊人的“上下文学习”（In-context Learning，ICL）能力，即能够根据输入序列中的示例准确预测新查询的答案，而无需额外更新模型参数。这与传统的“权重学习”（In-weights Learning，IWL）形成鲜明对比，后者通过网络权重编码查询-输出关系。那么，训练数据的分布和模型架构哪些方面会影响 ICL 和 IWL 之间的权衡呢？

近年来，研究表明，语言中固有的特定分布特性，例如突发性（burstiness）、庞大的词典和偏斜的词频分布，会控制这两种学习形式的权衡或同时出现。本文将深入探讨 ICL 背后的机制，并揭示这种能力的“顿悟”时刻是如何产生的。

简单的模型，深刻的发现

为了更好地理解 ICL 的机制，研究人员设计了一个简单的模型，该模型仅包含两个注意力层和一个分类器，并使用一个简化的数据集进行训练。这个模型能够重现过去研究中发现的关于数据分布特性的关键发现。

模型结构：
- 输入序列包含 N 个项目-标签对，以及一个目标项目。
- 项目从 K 个类别中采样，每个类别对应 L 个标签（L ≤ K）。
- 每个输入序列至少包含一个与目标项目类别相同的项目。
- 网络的任务是预测目标项目的标签。
数据分布参数：
- 类别数量 (K)
- 类别词频分布 (α)
- 类内差异 (ε)
- 每个输入序列中单个类别的项目数量 (B)
模型训练：
- 使用交叉熵损失函数进行训练。
- 网络可以通过两种方式实现零损失：
  - 学习将目标项目分类到 K 个类别中，类似于标准的权重学习分类任务 (IWL)。
  - 学习更通用的上下文学习解决方案 (ICL)。
实验结果：
- 实验表明，增加突发性 (B) 和类别数量 (K) 会促进 ICL 并抑制 IWL，反之亦然。
- 类内差异 (ε) 也会促进 ICL 并抑制 IWL。
- 当类别词频分布为 Zipfian 分布 (α = 1) 时，ICL 和 IWL 可以同时得到提升。
- 实验表明，该模型能够同时学习 ICL 和 IWL 解决方案。
揭秘“顿悟”时刻：诱导头的形成

研究人员发现，在 ICL 过程中，模型的学习过程通常包含两个阶段：缓慢学习阶段和突变阶段。在缓慢学习阶段，模型的准确率会缓慢提高，但注意力机制并没有表现出明显的结构。在突变阶段，模型的准确率突然跃升至接近完美，同时注意力机制也展现出清晰的结构。

注意力机制的变化：
- 突变前：模型的第一层注意力机制表现出均匀的注意力分配，第二层注意力机制没有明显的模式。
- 突变后：模型的第一层注意力机制表现出“前瞻性”的模式，即每个 token 都关注其前一个 token；第二层注意力机制则表现出“目标关注特定标签”的模式。
诱导头的形成：

研究人员提出，ICL 的突变阶段是由“诱导头”（Induction Head）的形成驱动的。诱导头是一种由两个注意力层组成的结构，它能够实现“零样本复制”（Zero-shot Copying）的功能，即根据输入序列中的项目-标签对，即使从未在训练数据中出现过，也能预测出新项目的标签。

诱导头的机制：
- 诱导头通过一系列操作实现“零样本复制”：
  - 第一个注意力层：token 关注其前一个 token，并将前一个 token 的内容写入到当前 token 的“缓冲区”。
  - 第二个注意力层：目标 token 关注当前 token 的“缓冲区”，并将当前 token 的内容写入到目标 token。
  - 分类器：根据目标 token 的内容预测标签。
模型验证：

研究人员构建了一个简化的三参数模型，该模型能够模拟诱导头的核心计算过程，并重现了完整模型的学习动态。实验结果表明，诱导头的形成是 ICL 突变阶段的关键驱动因素。

损失函数的“悬崖”：揭示突变背后的机制

为了进一步理解 ICL 突变阶段背后的机制，研究人员分析了诱导头的损失函数。他们提出了一种现象学模型，该模型包含诱导头和分类器的关键元素。

现象学模型：
- 损失函数包含三个嵌套的 logits，分别对应于第一个注意力层、第二个注意力层和第三个 softmax 层。
- 损失函数的梯度在“悬崖”处发生急剧变化，导致模型的学习过程发生突变。
模型解释：
- 缓慢学习阶段：模型通过逐渐调整分类器的回归向量，来学习随机选择一个上下文标签。
- 突变阶段：当回归向量与标签之间的重叠度达到一定程度时，模型的损失函数会从“悬崖”上掉下来，导致模型快速学习诱导头的参数。
模型预测：
- 当上下文标签数量小于等于目标标签数量时，模型的学习过程会发生变化，部分模型会陷入局部最优解，而部分模型则会缓慢学习 ICL 解决方案。
结论与展望

本文研究表明，大型语言模型的“顿悟”时刻是由诱导头的形成驱动的，而诱导头的形成则是由损失函数的“悬崖”所造成的。这项研究为理解 ICL 的机制提供了新的视角，并为未来研究提供了新的方向。

未来研究方向：
- 探索更大规模的模型中 ICL 的机制。
- 研究如何利用自动课程学习来加速 ICL 的学习过程。
- 探索诱导头在解决更复杂 ICL 任务中的作用。
参考文献：
- Reddy, G. (2022). Sharp transitions in reinforcement learning: A mechanistic analysis. arXiv preprint arXiv:2206.03426.
- Chan, W., Olsson, C., & Andreas, J. (2022). The data distribution of language drives in-context learning. arXiv preprint arXiv:2209.08841.
- Olsson, C., Chan, W., & Andreas, J. (2022). In-context learning as a form of zero-shot associative learning. arXiv preprint arXiv:2209.08841.
- Garg, S., Aky¨urek, E., & Neyshabur, B. (2022). On the inductive bias of attention-based in-context learning. arXiv preprint arXiv:2205.09340.
- Hoffmann, J., Lu, J., & Lake, B. M. (2023). Eureka moments in transformers: A mechanistic study of emergent abilities. arXiv preprint arXiv:2304.05070.
- Singh, S., Aky¨urek, E., & Neyshabur, B. (2023). In-context learning is transient. arXiv preprint arXiv:2303.02891.
- Team, D. L., et al. (2023). Scaling data-centric AI for real-world applications. arXiv preprint arXiv:2303.08687.
- Wang, X., et al. (2022). Towards interpretable deep learning: A review of methods and applications. arXiv preprint arXiv:2203.08687.
- Inan, H., Khosla, A., Oliva, A., & Torralba, A. (2016). Learning to represent images for recognition. arXiv preprint arXiv:1605.09091.
- Press, O., & Wolf, L. (2016). Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859.
2024 年 6 月 15 日
解开Transformer的神秘面纱：用统计物理学揭示自注意力机制的动态
Transformer模型在各种领域展现出非凡的性能，成为解决序列机器学习问题的最先进方案。尽管我们对Transformer架构的基本组件有了大致的了解，但对其运作机制和预期动态知之甚少。近年来，人们越来越关注注意力机制和Hopfield网络之间的关系，这有望揭示Transformer网络的统计物理学。然而，迄今为止，类似Transformer模型的动态机制尚未得到深入研究。

本文通过使用非平衡态下不对称Hopfield网络的研究方法，填补了这一空白。具体来说，我们采用了生成函数上的路径积分方法，得出了由并发平均场变量控制的动力学。假设1比特的token和权重，我们推导出大型自注意力神经网络与softmax输出耦合的解析近似，在网络规模趋于无穷大时，该近似将变得精确。我们的发现揭示了非平凡的动态现象，包括与混沌分岔相关的非平衡相变，即使对于具有少量编码特征和非常短的上下文窗口的简单配置也是如此。最后，我们讨论了我们的分析方法在提高我们对Transformer模型内部运作的理解方面的潜力，这可能有助于降低计算训练成本并提高模型的可解释性。

1. Transformer与Hopfield网络的奇妙联系

Hopfield网络描述了一个系统，其中一组自旋xi（i∈{1, .., N}）的概率p(x)由一个能量函数定义，该函数考虑了系统中存储的M个记忆ξa = {ξa,0, .., ξi,a, .., ξa,N}（a∈{1, .., M}，ξi,a∈{−1, +1}）。一个状态的概率定义为：
```
p(x) = Z−1 exp (β/N ∑a ∑i<j xiξi,aξj,axj)
```
其中，Z = ∑x exp(β∑a ∑ij xiξi,aξj,axj) 是配分函数，耦合通常是对称的（神经元i和j之间的耦合值为∑a ξi,aξj,a），描述了一个能量景观E，在这个能量景观的最小值处，我们可以恢复系统的记忆。参数β是一个常数，定义了逆温度。最后，1/N的归一化确保了系统的能量是广泛的。

类似于受限玻尔兹曼机，我们可以通过定义两组变量x = {x1,t, . . . , xN,t}（t∈{1, 2, . . . , T}）和一组由矩阵Wk, Wq（k, q∈{1, 2, . . . , M}）编码的模式来描述一个二分Hopfield网络。该系统的概率定义为：
```
p(k, q) = Z−1 exp (β/N ∑a ∑ij kiWk i,aWq j,aqj)
```
请注意，现在k, q之间的连接是不对称的（即，可能Wk a ̸= Wq a）。对于给定的q，系统的条件分布可以表示为：
```
p(k|q) = exp(β/N ∑a ∑ij kiWk i,aWq j,aqj) / ∑k′ exp(β/N ∑a ∑ij k′ iWk i,aWq j,aqj)
```
当输出k再次被馈送到输入q时，对称随机耦合会导致自旋玻璃行为，而不对称随机耦合会导致非平衡稳态，表现出有序-无序相变和混沌动力学。

如果我们仔细观察[16, 31]中定义的单个头的自注意力函数At = softmaxτ (1/U ∑τ ∑i (qtWq)⊺W kkt−τ )τ W vvt−τ ，我们可以观察到查询键交互矩阵与上面定义的Hopfield网络具有类似的形式。引入一个缩放参数γ（类似于上面的逆温度β，但我们将其保留用于后面的输出），我们可以描述：
```
pA(kτ |qt) = softmaxτ (γ/U ∑a ∑ij kj,t−τ Wk i,aqi,t)
```
其中，L是上下文窗口的长度，a∈{1, .., M}定义了编码的特征，如公式(1)所示。重要的是，在自注意力中，每个键、查询和值token都等于不同时间步xt的输入，因此kt = qt = vt = xt，如公式(8)所示（相反，在交叉注意力中，查询token可以取不同输入的值）。请注意，我们选择用配分函数来表示softmax，得到与公式(3)中不对称Hopfield网络的条件分布等效的形式。我们注意到，即使在向量x不限于二进制值的情况下，等效性仍然有效。重要的是，注意力与二分Hopfield网络相比有两个重要的区别。首先，配分函数的求和不是对所有查询q进行，而是只对之前时间步t−τ′出现的查询进行，如公式(5)所示。其次，点积被归一化，以便softmax函数始终处于梯度相对较大的区域，假设∑i ki,tWk i,a项在a上的方差约为1阶[31]。通常，单位方差是通过专门的归一化层和初始化权重来实现的，以保持方差。对于大量的特征，softmax使用归一化项U = √M。在我们的例子中，为了简单起见，我们省略了归一化层，并将权重归一化包含在我们的归一化常数中，得到U = N^2√M。

2. 简化的注意力-输出层

通常，Transformer网络中的输出被定义为一个softmax。我们的目标主要是设计自注意力层能够产生的各种序列行为。因此，我们选择将一个高度简化的Transformer网络表示为注意力层和softmax输出的组合。类似的具有非线性输出的单层注意力网络可以完全记忆有限样本，并且是连续函数的通用逼近器。为了专注于注意力的动态，我们忽略了加法、归一化和前馈网络块，并将softmax直接应用于定义为注意力值线性组合的对数，如p(ot|At) = softmaxot(A t ⊺W oot)。为了进一步简化模型，我们假设输出对数是通过注意力值的线性变换Wo获得的，即o = WoAt。那么：
```
p(ot|At) = softmaxot(β/N ∑a ∑i i,aAa t) = exp(β/N ∑i oi,tWo i,aAa t) / ∑o′ exp(β/N ∑i o′ i,tWo i,aAa t)
```
其中，β = T−1是逆温度，1/N的归一化确保了对数的单位方差。

为了生成Transformer的动态，我们定义了一系列状态x0:T = {x1,t, . . . , xN,t}（t∈{0, 1, . . . , T}），其中xt = {x1,t, . . . , xN,t}。然后我们定义模型的动态，从公式((4), (5))生成注意力值，其中vτ = kτ，然后使用公式(6)以p(xt+1|At)的形式自回归地生成下一个token xt+1 = ot，得到：
```
p(x0:T ) = ∏t=0T−1 ∑τ pA(xτ |xt) p(xt+1|At)
```
其中：
```
Aa t = ∑i Wv i,axi,t−τ
```
3. 1比特token编码的注意力层的动态平均场理论

在本节中，我们使用标准方法来研究简化Transformer的循环动态，这些方法用于检查循环网络的非平衡统计物理学[5]。为了简单起见，并且为了保持对Hopfield模型的描述，我们假设权重和token的二进制编码。二进制权重Transformer正迅速成为一种有吸引力的替代方案，可以实现更具成本效益的模型。二进制token不太常见，但已被探索以降低计算成本（尽管有效的缩放似乎是保持性能的关键因素）。无论如何，我们的框架可以很容易地扩展到离散的非二进制token集（例如，用softmax替换我们结果中的tanh函数）。

由于模式之间的相互作用不像公式(1)那样是对称的，我们没有一个解析表达式来计算系统的矩。相反，我们定义了一个生成函数，它充当矩生成函数，在非平衡统计力学中扮演与配分函数等效的角色，但适用于非平衡设置。生成函数定义为：
```
Z(g) = ∑x0:T p(x0:T ) exp(∑a,t ∑α gα a,t 1/N ∑i Wα i,axi,t)
```
其中，α∈{q, k, v, o}是查询、键、值和输出变量特征的索引，路径概率定义在公式(7)中。请注意：
```
∂Z(g)/∂gα a,t |g=0 = 1/N ∑i Wα i,a ⟨xi,t⟩
```
恢复了Transformer中编码的特征的统计信息。因此，生成函数充当描述非平衡统计物理学中过程的一种动态配分函数。

我们使用路径积分方法[5]来求解系统，引入平均场变量：
```
mα a,t = 1/N ∑i Wα i,a ⟨xi,t⟩
```
在网络规模趋于无穷大时，使用最速下降法计算公式(9)（附录A）。在1比特token编码的情况下，这将导致一个生成函数：
```
Z(g) = exp(∑t=0T ∑i log 2 cosh(∑a Wo i,aβ ˆAa,t−1 + 1/N ∑a,α Wα i,agα a,t−1))
```
由以下平均场变量方程描述：
```
mα a,t = 1/N ∑i Wα i,a tanh(β ∑b Wo i,b ˆAb,t−1)
```
```
ˆAa t = ∑τ mv b,t−τ exp(γ ∑a mq a,tmk a,t−τ) / ∑τ ′ exp(γ ∑a mq a,tmk a,t−τ ′)
```
其中，ˆAa t是使用平均场变量评估的归一化注意力值（即除以N）。这些方程在网络规模趋于无穷大时是精确的，尽管我们应该期望在较小的规模下出现热涨落。

我们可以观察到，对于所有平均场mα，解都采用相同的形式。在公式(13)中，我们看到，对于所有模式b，自旋xi,t+1的平均行为是在tanh函数内计算的，然后投影到与每个与模式a相关的矩阵Wα a相对应的平均场。所有自旋i的信息被收集起来，以获得模式a的总行为。然而，我们可能会注意到，这样的网络不包含关于token排序的任何信息。Transformer模型通过添加一个位置编码的形式来缓解这个问题，该位置编码是一个外部信号[31]。为此，我们将携带位置编码的NP个单元添加到我们的token中（即语义嵌入）。在这个嵌入中，我们简单地将关于时间步t选择的token位置的信息编码为一个比特数组。我们将位置token单元定义为pi,t = (1)⌈t/i⌉（其中⌈x⌉是一个向上取整运算符），是时间序列值t的二进制编码中的第i个比特。
```
mα a,t+1 =(1−ϵ) 1/N ∑i=1N Wα i,a tanh(β 1/U ∑b Wα i,b ˆAb,t) + ϵ 1/NP ∑i=1NP Wα i,api,t+1
```
其中，ϵ决定了位置编码的相对权重。上面的方程中的位置编码只是添加到由softmax输出生成的token（或平均场）中。请注意，公式(13)中的解仍然是正确的，但我们只是通过添加一个外部信号pt来重新计算它的值。与Transformer网络中通常的做法一样，位置嵌入和语义嵌入通过同一个矩阵Wα进行投影。

公式(15)中的平均场方程不能直接在网络规模无限大的情况下计算。然而，对于在W中编码的有限数量的模式，其值可以取±1，我们可以用模式对之间的相关值Wα a , Wα′ b来代替对i的求和，如附录B中的公式(29)所示，得到：
```
mα a,t = 1/2M (∑b σb ⟨W o i,bWα i,a⟩i + ∑b<c<d σbσcσd tanh(β ∑b σb ˆAb,t−1) ⟨W o i,bW o i,cW o i,dWα i,a⟩i + · · ·)
```
其中，σ是一个包含M个二进制变量σa = ±1的数组。省略号包括sigma分量的奇数乘积乘以Wα i,a与W o i分量的偶数乘积在i上的平均值。⟨…⟩i表示对i索引的平均值。

4. 结果

为了观察简化Transformer网络的动态行为机制，我们模拟了具有随机二进制权重和随机相关值的网络（附录C），并使用了一个长度为L = 4个token的上下文窗口。我们对网络进行了1.2×10^6步的模拟，其中每一步都将轨迹的最后4个token作为输入（如上下文窗口定义），并生成下一个token。为了避免瞬态轨迹，我们丢弃了前10^6步。在接下来的部分，我们将展示其中一个网络初始化的行为。即使是参数的一种配置也允许观察到非常不同的行为，并且类似的结果可以在其他组合中复制。下一节中获得的结果是在手动探索后使用γ = 220和ϵ = 0.02获得的。对于其他参数也观察到了类似的动态，但我们选择这种组合，因为它在不同的β下产生了更大的动态多样性。随机生成相关性的种子是手动选择的，设置相关性的过程在附录C中解释。

实验是在几个2个英特尔至强E5-2683 @ 2.10GHz节点上进行的。每个模拟过程的执行（具有上面提到的设置）是在数十个节点上并行进行的。每个计算大约需要5分钟才能完成，每个过程使用2个专用核心。我们为每个过程分配了8GB的内存。

4.1 非平衡相变

在本节中，我们探索了模型在不同逆温度β = T−1下的行为。在Transformer中，下一个token的概率取决于一个温度值，该温度值会修改softmax概率，如公式(6)所示。我们使用4001个值将温度值从0修改到3。这类似于在标准Transformer架构中探索softmax输出的不同温度。

我们以两种形式生成系统的分岔图。通常，分岔图[27]描绘了某个变量在特定参数（在本例中为β）下的所有取值。在分岔图的第一种形式中，我们简单地从一个平均场变量mo 1,t（其他变量的行为类似）的稳态中采样20000个点，并将每个β的取值表示为图3中的黑色和黄色点，具体取决于吸引子是周期性的还是非周期性的。在分岔图的第二种形式中，如果吸引子是非周期性的，我们绘制轨迹中与平面mo 2 = 0（在0.001的小误差值内）相交的点，这些点在图3中用橙色和紫色点表示，具体取决于吸引子是准周期性的还是混沌的。虽然在未来的研究中我们将系统地研究吸引子，但在这里我们只通过目视检查和对每个分岔图中点的数量进行计数来区分它们。在图3.a和图3.b中，我们可以看到β值在范围[0, 3]和[1.24, 1.28]内的分岔图。在较低的β处，系统陷入周期性吸引子，然后发展到一个具有准周期性行为的区域，最终突然过渡到混沌状态。我们可以看到，尽管如此，不同的状态并不稳定，β的微小变化会对所表现出的行为产生很大的影响。

为了可视化这一点，我们从分岔图中选择了β值，并在同一个平面上绘制了mo 2(t)的轨迹。在这里，我们可以区分：1) 在一组固定点之间跳跃的周期性轨迹（例如，图4中的β = 1.27）；2) 在一组连续曲线上的点之间跳跃的准周期性循环（例如，图4中的β = 1.255和β = 1.26405）；或者3) 混沌轨迹（例如，图4中的β = 1.266，β = 1.28和β = 1.4）。

4.2 动态和时间记忆

在图5（顶部）中，我们观察到一个准周期性和一个混沌轨迹的示例。观察它们的傅里叶频谱和自相关函数（图5，中间和底部），我们看到所有信号都具有与低频分量相关的长相关性，特别是在混沌状态的情况下。在准周期性轨迹的情况下，我们观察到的低频分量比与上下文长度相关的低频分量（f = 1/L = 0.25）更低。这揭示了注意力和Transformer模型中经常被忽视的一方面，即它们的记忆容量并不局限于上下文窗口的跨度，而是系统可以显示出丰富的动态机制，从而诱导低频分量，显著提高模型“记忆”先前token的能力。

此外，准周期性和特别是混沌轨迹——对于语义表示，其中相关的token在嵌入空间中彼此靠近——可以被解释为吸引子，允许系统以不同的方式表达类似的结构。此外，图5（右上角）所示的不同吸引子的共存表明，模型可以由混沌动态驱动，在不同的结构之间切换。总的来说，这里展示的简单示例表明，类似Transformer的架构可以轻松地产生具有非平凡记忆效应的丰富动态结构。

5. 总结

本文提出了一种针对注意力网络的动态平均场理论，并展示了它在一个简单的模型中的应用，该模型结合了注意力网络和softmax输出token生成器。

我们使用非平衡统计力学技术来研究注意力机制作为不对称Hopfield网络。我们的计算在网络规模趋于无穷大时，得到了路径概率统计的精确结果。虽然为了简单起见，我们使用了权重和token的1比特描述，但结果可以轻松地扩展到其他配置。

即使对于相对简单的配置，包括每个级别（键、查询、值和输出）只有三个特征，以及非常有限的上下文（4个token），我们也发现了丰富的动态行为景观，包括平均场变量之间的周期性、准周期性和混沌吸引子之间的多个相变。此外，在所有情况下，我们都观察到复杂的动态，其记忆效应远远超出了上下文窗口中存储的内容。虽然我们没有考虑Transformer网络中的其他块，例如前馈层和残差连接，但我们预计额外的非线性和反馈回路会增加观察到的动态的复杂性。

尽管我们的示例仅限于简化的模型配置，但我们的方法有可能为更现实的设置中Transformer模型的动态提供见解。理解Transformer网络一般配置中预期的相图，可以更深入地理解架构，以及表征参数空间中的理想配置和相关的相变。此外，我们的框架可以扩展到实现技术，以理解记忆容量和动态之间的关系，即非平衡态下自旋玻璃的著名平均场理论的非平衡等效物。

此外，我们假设我们的平均场计算可以为计算Transformer模型中注意力层的统计信息提供一种经济高效的替代方案，这可能通过减轻学习过程中计算损失函数梯度的计算成本，来加速模型训练过程。尽管在平均场变量的计算中假设了无限大的系统，但我们的方法可以针对有限大小的网络进行改进，以获得更准确的近似，例如使用非平衡自旋模型中的理论。我们希望在未来的工作中探索这个想法。

我们渴望为提高Transformer模型的可解释性而开发的方法做出贡献。大型语言模型中特征的可解释性以及识别系统关键特征中涉及的回路，引起了极大的兴趣。通过非平衡统计物理学的视角，我们可以通过描述一组低维平均场变量来阐明大型异构网络的动态。理解这些序参量会导致识别模型预测中的关键特征和模式。我们推测，理解这些关键特征中的相变可以提供与对齐问题等挑战相关的关键见解。

总而言之，这些结果有助于发展注意力机制及其相变的非平衡统计物理学的精确分析理论。我们设想，沿着这条线的贡献有可能促进将统计物理学的理论概念更系统地整合到生成式AI模型领域。

致谢和资金披露

感谢Ivan Garashchuk和Iñigo Urteaga对本文稿的宝贵意见。APL和MA获得了“la Caixa”基金会（ID 100010434，代码LCF/BQ/PI23/11970024）的MA青年领袖奖学金资助。APL和MA感谢巴斯克政府的BERC 2022-2025计划和西班牙科学与创新部的塞维罗·奥乔亚认证（CEX2021-001142-S / MICIN/AEI/10.13039/501100011033）的支持。MA部分获得了约翰·坦普尔顿基金会（资助ID 62828）、巴斯克政府（ELKARTEK 2023计划，项目KK-2023/00085）和西班牙科学、创新和大学部的资助MICIU/AEI /10.13039/501100011033的支持。

参考文献

[1] https://arxiv.org/pdf/2406.07247
2024 年 6 月 15 日

模型	数据集	MOS 框架	对照组
QWEN1.5-0.5B	MMLU	35.13	32.82
GEMMA-2B	MMLU	44.49	41.86
LLAMA-3-8B	MMLU	63.85	60.97
QWEN1.5-0.5B	MT-bench	22.27	23.40
GEMMA-2B	MT-bench	31.56	30.88
LLAMA-3-8B	MT-bench	61.54	59.64

博客

Mixtral 8x22B：模型越大越好？

Llama 3：数据越多越好？

Phi-3：数据质量更重要？

OpenELM：面向移动设备的轻量级模型

DPO vs PPO：哪种对齐方法更强大？

四月发布的其它有趣论文

总结：开源 LLM 领域百花齐放

奖励模型：让LLM知道什么是好，什么是坏

奖励过度优化：模型的“聪明反被聪明误”

可泛化奖励模型（GRM）：让模型更具“举一反三”的能力

文本生成损失：让模型保持“语言能力”

GRM的优势：高效、稳定、可靠

实验结果：GRM的优异表现

未来展望：更智能、更可靠的奖励模型

参考文献

FP8：下一代低精度训练的突破

FP8-LM：全方位 FP8 训练框架

挑战与解决方案

显著的性能提升

广泛的适用性

未来展望

参考文献

FP8 LLM

2.1 FP8 梯度和所有减少通信

2.2 FP8 优化器

2.3 FP8 分布式训练

3 FP8 训练框架

3.1 级别 1：FP8 梯度通信

3.2 级别 2：FP8 优化器

3.3 级别 3：FP8 分布式训练

4 实验结果

4.1 预训练

4.2 微调

5 结论

参考文献

微软自动混合精度 (MS-AMP) 简介

主要特点

与 Transformer Engine 的优势

性能

总结

数据使用优化：为什么重要？

“技能混合”框架：如何优化数据使用？

奖励机制：引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值，从而引导模型更有效地学习：

实验结果：显著提升模型性能

未来展望：任务特定微调

总结

参考文献

1. 为什么要思考？

2. 树状思维：更全面的思考

3. 链式偏好优化：兼顾效率和效果

4. CPO 的优势

5. 未来展望

长期记忆的困境：世界模型的挑战

S4模型：突破长期依赖关系的利器

回忆想象：赋予世界模型记忆能力

R2I的优异表现

总结

参考文献

长文本：大模型的“内存”

长文本处理：两条路

工程优化：突破瓶颈

Full Attention：计算量之殇

优化方案：Flash Attention & Ring Attention

长文本大模型：未来可期

参考文献

StreamingLLM：突破传统 LLM 的限制

如何尝试 StreamingLLM？

总结

窗口注意力的瓶颈：为什么需要 StreamingLLM？

Attention Sink 的发现：解开窗口注意力的秘密

StreamingLLM 的工作原理：高效利用注意力汇聚

StreamingLLM 的优势：高效、稳定、无需微调

实验结果：实证验证 StreamingLLM 的有效性

StreamingLLM 的应用场景：无限对话、实时翻译、文本摘要

未来展望：更强大、更智能的流式解码

LLM 推理加速的挑战

FlashDecoding++ 的解决方案

性能提升

总结