知差（chai）

29倍吞吐量提升：一探H2O高效生成大型语言模型的秘密

作者：

在

在人工智能的浩瀚星海中，大型语言模型如同耀眼的恒星，它们的能力强大而深不可测。然而，这些模型的运作往往需要耗费巨大的计算资源，这也成为了阻碍AI技术广泛应用的一大障碍。今天，让我们一起探索那个改变游戏规则的创新项目——H2O。

友情链接：ACEJoy

引领潮流的创新：H2O的诞生 🌟

在NeurIPS’23大会上，一项名为H2O的研究引起了广泛关注。这是一种被称作“重点词神器”的技术，它使得大型语言模型的生成变得更加高效。那么，H2O到底是什么呢？

简而言之，H2O是一种优化了的内存管理方案，它通过智能地管理键值（KV）缓存来减轻模型推理过程中的计算负担。KV缓存通常与序列长度和批量大小成线性关系，而H2O能够大幅减少这些缓存的内存占用。

精华所在：重点词的力量 💡

H2O的核心概念在于识别和利用了“重点词”——这些词在计算注意力得分时占有压倒性的重要性。研究者发现，这些词与文本中的频繁共现词强相关，若将它们从模型中移除，性能会大打折扣。H2O正是利用了这一洞察，通过平衡最近词和重点词，优化了KV缓存的管理。

实践证明：H2O的效能 🛠

H2O不仅在理论上前卫，它的实用性也已经在各种任务和不同规模的模型上得到了验证。

实验表明：在保留两成重点词的情况下：

通过H2O优化的大型模型在性能上可以实现高达29倍的吞吐量提升！

这在当前领先的如DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen等推理系统中表现尤为突出。

开源精神：与社区共建 🌐

值得庆幸的是，H2O项目已经在GitHub上开源，任何对AI充满热情的开发者和研究者都可以参与其中。无论是想提高你的语言模型生成效率，还是仅仅出于好奇，你都可以在这个平台上找到价值。

结语：跨越技术的鸿沟 ✨

随着H2O的横空出世，那些曾经遥不可及的AI技术现在似乎触手可及。这个项目不仅仅是技术的飞跃，更是开启普通人使用强大AI工具的大门。让我们拭目以待，看看H2O将如何在未来的日子里，继续激起技术革新的波澜！

评论

《 “29倍吞吐量提升：一探H2O高效生成大型语言模型的秘密” 》有 9 条评论

2023 年 12 月 21 日

C3P00

https://github.com/FMInference/H2O

回复
2023 年 12 月 27 日

C3P00

生成式大型语言模型( llm )因其在创意写作、高级代码生成和
复杂自然语言处理任务方面的卓越能力而受到关注 [5 ,42 ,49 ]。
这些模型广泛部署在配备高端和昂贵的服务器级 gp u 的数据
中心中，对我们的日常生活和工作实践产生了重大影响。与
此同时，在更容易访问的本地平台上运行 llm 的趋势正在兴
起，特别是带有消费级 gp u 的个人电脑(p c )。这种演变是由
增强数据隐私[25 ]、模型定制[2 2 ]和降低推理成本[4 2 ]的需求
驱动的。与优先考虑高吞吐量的数据中心部署相比
[18,37,47 ]，本地部署侧重于处理小批量时的低延迟。

回复
2023 年 12 月 27 日

C3P00

尽管如此，在消费级 gp u 上部署 llm 面临着巨大的挑战，因
为它们需要大量的内存。llm ，通常作为自回归的变形器，
按顺序逐个符号生成文本，每个符号都需要访问由数千亿个
参数组成的整个模型。因此，推理过程从根本上受到 GP U
内存容量的限制。这种限制在本地部署中尤其严重，在本地
部署中，单个请求的处理(通常一次只有一个)[6 ]留给并行处
理的机会很少。

回复
2023 年 12 月 27 日

C3P00

解决这类内存问题的现有方法包括模型压缩和卸载。量
化[1 2 ,46 ]、蒸馏[4 8 ]和剪枝[2 3 ]等压缩技术减少了模型的大
小。然而，即使是深度压缩的模型对于消费级 gpu 来说仍然
太大。例如，4 位精度的 OPT-66B 模型仅加载其参数就需要
大约 4 0 GB 的内存[2 0 ]，甚至超过了 N VI DI A RT X 40 90 等高
端 gp u 的容量。模型卸载，在 Tra n sfo rm e r 层将模型划分为
GP U 和 CP U[3 ,14 ,37 ]。最先进的系统，如 lla ma .cp p [14 ]在
CPU 和 GP U 内存之间分配层，利用两者进行推理，从而减
少所需的 GPU 资源。然而，这种方法受到慢速 P CIe 互连和
cpu 有限的计算能力的阻碍，导致较高的推理延迟。

回复
2023 年 12 月 27 日

C3P00

在本文中，我们认为 L LM 推理中内存问题的关键原因是
硬件架构与 LL M 推理特性之间的局部性不匹配。当前的硬
件架构设计了针对数据局部性优化的内存层次结构。理想情
况下，应该在 GP U 中存储一个小的、经常访问的工作集，
这样可以提供更高的内存带宽，但容量有限。相比之下，更
大的、访问频率更低的数据更适合 c p u ，它提供更广泛的内
存容量，但带宽更低。然而，每次 LLM 推理迭代所需的大
量参数导致单个 GP U 的工作集太大，从而阻碍了有效的局
部性利用。

回复
2023 年 12 月 27 日

C3P00

在 OPT 模型中，激活图中只有不到 10 % 的元素是非零的，
而这些元素在运行时的预测准确率可以达到 93% 以上[2 1 ]。
值得注意的是，LLM 中的神经元激活遵循倾斜的幂律分布 :
一小部分神经元始终参与各种输入(热激活)的大多数激活
(超过 80 % )，而大多数神经元参与剩余的激活，这些激活
是根据运行时的输入(冷激活 )确定的。

回复
2023 年 12 月 27 日

C3P00

在局部性见解的基础上，我们介绍了 PowerInfer，这是一
个高效的 L LM 推理系统，使用单个消费级 GPU 对本地部署
进行了优化。Po we rInfe r 的关键思想是利用 L LM 推理中的局
域性，将少量的热神经元分配给 GP U，而构成大多数的冷神
经元由 CP U 管理。Po w- e rInfe r 离线预选和预加载热激活的
神经元到 GPU 上，并在运行时利用在线预测器来识别激活的
神经元。这种方法允许 GP U 和 CP U 独立处理各自的神经元
集，从而最大限度地减少对昂贵的 PCI e 数据传输的需求。

回复
2023 年 12 月 27 日

C3P00

然而，有一些重大的挑战使 Po we rInf er 的设计复杂化。首
先，在线预测器对于识别 L LM 层中的活动神经元至关重要，
通常位于 G PU 上，占用了大量的 GPU 内存。否则，这些内
存可以用于 LL M 。为了解决这个问题，Po we rInf e r 引入了
一种自适应方法，用于为具有较高激活稀疏度和偏度的层
构建较小的预测器。这个迭代过程减少了预测器的大小，
同时保持了它们的准确性，从而为 L LM 推理释放了 GP U
内存。

回复
2023 年 12 月 27 日

C3P00

Po we rInf e r 的在线推理引擎是通过添加 4 200 行 c ++ 和
C U D A 代码来扩展 lla ma .cp p 来实现的。它的离线组件，包
括一个分析器和一个求解器，建立在变压器框架 [44 ]上，大
约有 4 00 行 Py th on 代码。p o we re rin f e r 兼容各种流行的
LL M 家族，包括 OP T (7 B-175 B) ， LLa M A (7 B-7 0 B)和
Fa lcon – 40 B，并支持消费级 gpu ，如 N VI DI A RT X 40 90 和
NVI DI A RTX 2080Ti。

回复

发表回复取消回复

更多文章

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网