开源模型大比拼:Mixtral、Llama 3、Phi-3、OpenELM 谁更胜一筹?

大型语言模型(LLM)的开源浪潮正在席卷全球,各种新模型层出不穷,让人眼花缭乱。最近,Mistral AI 的 Mixtral 8x22B、Meta AI 的 Llama 3、微软的 Phi-3 以及苹果的 OpenELM 等新模型纷纷发布,引发了广泛关注。究竟这些新模型有哪些亮点?它们在性能、效率和应用场景方面又有哪些区别呢?


友情链接:ACEJoy


 

本文将带你深入了解这四款新模型,并探讨它们在开源 LLM 领域中的地位和未来发展方向。

Mixtral 8x22B:模型越大越好?

Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家(MoE)模型,采用宽松的 Apache 2.0 开源许可证。与今年早些时候发布的 Mixtral 8x7B 相比,新模型的参数量大幅提升,达到了 8x22B。

Mixtral 8x22B 的核心思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。MoE 的优势在于能够在保持模型性能的同时,降低计算资源需求。

Mixtral 8x22B 在 MMLU 基准测试中表现出色,并且在参数量和计算资源需求方面取得了平衡。

Llama 3:数据越多越好?

Meta AI 的 Llama 3 模型延续了 Llama 系列的辉煌,其训练数据量大幅增加,达到了 15 万亿 token,远超 Llama 2 的 2 万亿 token。

Llama 3 的架构与 Llama 2 几乎一致,主要区别在于词汇库更大,以及更小型模型使用了分组查询注意力。

Llama 3 的出色表现得益于其庞大的训练数据,即使在超过 15 万亿 token 的规模上,模型仍然能够获得进一步提升。

Phi-3:数据质量更重要?

微软的 Phi-3 模型则更加注重数据质量,其训练数据量仅有 3.3 万亿 token,不到 Llama 3 的五分之一。

Phi-3 的秘诀在于使用了严格过滤的网络数据和合成数据,从而在数据质量上取得了优势。

Phi-3-mini 模型的参数量仅有 3.8B,却在基准测试中超越了 Llama 3 8B 模型,展现出其在数据质量方面的优势。

OpenELM:面向移动设备的轻量级模型

苹果公司发布的 OpenELM 模型套件旨在提供可在移动设备上部署的小型 LLM。OpenELM 拥有 4 种不同尺寸的模型,参数量分别为 270M、450M、1.1B 和 3B。

OpenELM 的亮点在于其详细分享了架构、训练方法和训练数据,并且在性能上超越了 OLMo,尽管其训练数据量更少。

OpenELM 的逐层扩展策略是一种新颖的设计,它可以有效地提升模型的效率,使其更适合在移动设备上运行。

DPO vs PPO:哪种对齐方法更强大?

除了新模型的发布,一篇名为《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》的论文探讨了 DPO 和 PPO 在 LLM 对齐方面孰优孰劣的问题。

论文的结论是:PPO 通常优于 DPO,并且 DPO 更容易受到分布外数据的影响。

四月发布的其它有趣论文

除了上面提到的新模型和论文,四月还涌现了许多其他值得关注的研究成果,例如:

  • KAN(Kolmogorov–Arnold Networks)模型,一种新的 MLP 替代方案,在准确度、神经扩展性能和可解释性方面具有优势。
  • RAG(Retrieval-Augmented Generation)模型的综述,全面总结了检索增强型 LLM 的组件、结构、应用和评估方法。
  • LoRA(Low-Rank Adaptation)技术,一种参数高效型微调技术,可以显著提升模型性能。
  • FILM-7B 模型,使用信息密集型方法训练,可以解决 LLM 的“中间丢失”问题。
  • LayerSkip 技术,可以加快 LLM 的推理速度。
  • 等等。

总结:开源 LLM 领域百花齐放

四月发布的这些新模型和论文,展现了开源 LLM 领域的蓬勃发展。Mixtral、Llama 3、Phi-3 和 OpenELM 各具特色,为不同应用场景提供了更多选择。

未来,我们期待看到更多更强大、更可靠、更易用的开源 LLM 模型,推动人工智能技术走向更加成熟和广泛的应用。

发表评论