大型语言模型(LLM)在自然语言处理领域取得了巨大成功,它们能够熟练掌握各种技能,例如写作、推理、聊天、编码等等。为了实现这些能力,LLM 通常需要在来自不同来源的庞大数据集上进行微调。然而,这些数据集往往具有异质性和不平衡性,给微调过程带来了挑战。如何平衡不同技能的开发,同时确保模型的整体性能,成为了一个关键问题。
本文将介绍一种名为“技能混合”(MIXTURE-OF-SKILLS,MOS)的通用、模型无关的强化学习框架,它能够在微调过程中自动优化数据使用。MOS 通过动态调整对不同数据集的关注程度,确保 LLM 能够全面、有效地发展各种技能。
数据使用优化:为什么重要?
在多个数据集上微调模型时,一个常见挑战是处理数据集的异质性和不平衡性。不同数据集可能具有不同的特点,例如数据规模、数据质量、数据类型等等。这些差异会导致模型在微调过程中难以兼顾所有技能的开发。
传统的做法往往限制数据集的使用,以防止模型被大型数据集“淹没”。然而,这种做法限制了所有可用数据的利用。一些研究尝试通过调整数据集的分布来解决这个问题,但这些方法往往需要大量的超参数调整,并且忽略了数据集之间的相互作用以及模型学习的动态变化。
“技能混合”框架:如何优化数据使用?
为了解决上述问题,本文提出了一种名为“技能混合”(MOS)的强化学习框架。MOS 框架的核心思想是训练一个“评分网络”,它能够根据模型当前的学习状态,动态调整对不同数据集的采样概率。
图 1 展示了 MOS 框架的整体流程。模型在多个数据集上进行微调,每个数据集都包含特定的技能信息。评分网络根据模型当前的学习状态,动态调整对不同数据集的采样概率,从而引导模型更有效地学习。
图 1:技能混合框架概述
MOS 框架的优势:
- 通用性: MOS 框架适用于各种 LLM 模型和数据集,无需特定模型或数据集的先验知识。
- 自动优化: MOS 框架能够自动学习最佳数据使用策略,无需人工干预。
- 多角度评估: MOS 框架使用三种不同的奖励机制来评估数据集的价值,包括可迁移性、难度和学习轨迹。
奖励机制:引导模型学习MOS 框架使用三种不同的奖励机制来评估数据集的价值,从而引导模型更有效地学习:
1. 可迁移性: 数据集之间的相似性越高,它们对模型的贡献就越大。MOS 框架使用余弦相似度来衡量数据集之间的相似性,并将其作为奖励机制之一。
2. 难度: 数据集的难度越高,模型需要投入更多的训练努力才能学好。MOS 框架使用困惑度来衡量数据集的难度,并将其作为奖励机制之一。
3. 学习轨迹: 模型在微调过程中,对不同数据集的学习进度会有所不同。MOS 框架使用指数移动平均来追踪模型的学习轨迹,并将其作为奖励机制之一。
实验结果:显著提升模型性能
为了验证 MOS 框架的有效性,本文在两个常用的基准数据集(MMLU 和 MT-bench)上,使用三种不同的 LLM 模型(QWEN1.5-0.5B、GEMMA-2B 和 LLAMA-3-8B)进行了实验。结果表明,MOS 框架能够显著提升模型的整体性能,并且能够加速模型的训练收敛速度。
表 1:不同模型在不同数据集上的性能比较
模型 | 数据集 | MOS 框架 | 对照组 |
---|---|---|---|
QWEN1.5-0.5B | MMLU | 35.13 | 32.82 |
GEMMA-2B | MMLU | 44.49 | 41.86 |
LLAMA-3-8B | MMLU | 63.85 | 60.97 |
QWEN1.5-0.5B | MT-bench | 22.27 | 23.40 |
GEMMA-2B | MT-bench | 31.56 | 30.88 |
LLAMA-3-8B | MT-bench | 61.54 | 59.64 |
未来展望:任务特定微调
除了通用微调之外,MOS 框架还可以应用于任务特定微调。本文提出了一种名为“MOSPEC”的变体,它能够有效地利用各种数据集来完成特定任务。
总结
本文提出了一种名为“技能混合”(MOS)的通用、模型无关的强化学习框架,它能够自动优化数据使用,提升 LLM 的整体性能。MOS 框架通过动态调整对不同数据集的关注程度,确保 LLM 能够全面、有效地发展各种技能。实验结果表明,MOS 框架能够显著提升模型的整体性能,并且能够加速模型的训练收敛速度。
参考文献
- Bai, Y., et al. (2023). Qwen: Towards Open-source, Efficient, and High-performance Large Language Models. arXiv preprint arXiv:2305.16255.
- Colson, B., et al. (2007). Bilevel programming: A survey. Journal of Optimization Theory and Applications, 130(2), 229-252.
- Conneau, A., et al. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 820-830).
- Ding, L., et al. (2023). A Comprehensive Study of Instruction Tuning for Large Language Models. arXiv preprint arXiv:2305.00161.
- Hendrycks, D., et al. (2021a). Measuring Massive Language Models’ Ability to Reason. arXiv preprint arXiv:2108.08404.
- Longpre, S., et al. (2023). In-context Learning and Induction Heads: A Unified Perspective. arXiv preprint arXiv:2305.13091.
- Mesnard, T., et al. (2024). GEMMA: A 2B Parameter Open-Source Language Model. arXiv preprint arXiv:2401.02348.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
- Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
- Sanh, V., et al. (2022). Multitask Prompted Training for Large Language Models. arXiv preprint arXiv:2205.08310.
- Touvron, J., et al. (2023a). LLaMA: Open and Efficient Large Language Models. arXiv preprint arXiv:2302.13971.
- Touvron, J., et al. (2023b). BLOOM: A 176B-parameter Open-access Multilingual Language Model. arXiv preprint arXiv:2211.05100.
- Wang, S., et al. (2020a). Differentiable Data Selection for Efficient Training of Deep Neural Networks. arXiv preprint arXiv:2002.05689.
- Wei, J., et al. (2022). Finetuned Language Models are Zero-Shot Learners. arXiv preprint arXiv:2205.05131.
- Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4), 229-256.
- Wu, M., et al. (2021). Towards Understanding the Transferability of Knowledge in Multi-task Learning. arXiv preprint arXiv:2106.04803.
- Yue, Y., et al. (2023). Math-Aware Language Models: Towards Reasoning about Mathematical Concepts. arXiv preprint arXiv:2303.11989.
- Yu, H., et al. (2023). Towards Robust and Generalizable Mathematical Reasoning with Large Language Models. arXiv preprint arXiv:2303.17529.
- Zheng, Z., et al. (2023). MT-bench: A Human-Centric Evaluation Benchmark for Multilingual Text Understanding. arXiv preprint arXiv:2303.16166.