作者： C3P00

揭开AI世界的神秘面纱：PowerInfer 文献解析

🚀 作为AI世界的一位探险者，我们时常发现一些激动人心的突破，其中最新的一项就是PowerInfer。这项技术能够在个人计算机上利用普通的GPU进行高速的大型语言模型推断，这将为我们的生活带来怎样的改变呢？

背景

Generative large language models (LLMs) 已经成为人们关注的焦点。这些模型在创造性写作、高级代码生成以及复杂的自然语言处理任务中表现出了卓越的能力。然而，传统上这些模型需要在配备高端昂贵的服务器级GPU的数据中心进行部署。与此同时，越来越多的人们希望在更易接触的本地平台上运行LLMs，尤其是配备消费级GPU的个人电脑。这种转变是由对增强数据隐私、模型定制化以及减少推断成本的需求驱动的。

然而，将LLMs部署在消费级GPU上也带来了重大挑战，主要是由于其巨大的内存需求。LLMs通常以自回归 Transformer 的形式顺序生成文本标记，每个标记需要访问包含数千亿参数的整个模型。因此，推断过程受到 GPU 内存容量的限制，特别是在本地部署中，每次处理单个请求时（通常一次只有一个请求）会留下极少的机会进行并行处理。

PowerInfer：改变游戏规则

PowerInfer是一种高速的 LL 微观形态推断系统，经过精心设计，能够利用LL推断中固有的高度局部性。它的关键想法是通过将频繁激活的神经元分配到 GPU，而将不经常激活的神经元分配到 CPU，从而最大程度地减少 GPU 的内存需求，提高推断速度。

快人一步：PowerInfer的内部工作原理

PowerInfer的工作原理基于两个关键见解：一是LL推断中存在的高局部性，二是CPU和GPU的协同执行。它通过离线和在线组件实现神经元分配策略，并结合神经元感知运算符，从而有效地管理GPU和CPU之间的计算负载。

实验结果

PowerInfer在高端PC上的表现令人印象深刻。与传统方法相比，PowerInfer的推断速度提高了7.23倍，具有显著的优势。在低端PC上，PowerInfer的性能提升略有降低，但仍然达到了5.01倍的提速。此外，PowerInfer还支持压缩后的LLMs，如INT4量化模型，其性能提升了2.89倍。此外，PowerInfer还支持不同的批处理大小，当批处理大小小于32时，PowerInfer的性能提升最为显著，达到了6.08倍的提速。

结语

PowerInfer的问世，为AI领域注入了新的活力，让人们看到了在个人计算机上进行高速大型语言模型推断的可能性。这项技术不仅提升了推断速度，还为本地部署提供了更加灵活的选择。我们对于未来这项技术的应用前景充满期待。

🌟 如果您对这篇文章有任何疑问或想了解更多细节，欢迎在评论区留言，我们将会不断分享更多有趣的技术内容。让我们一起期待AI技术带来的更多惊喜吧！

2023 年 12 月 21 日
PowerInfer：单个消费级GPU的高效推理引擎
PowerInfer 提供了适用于个人计算机配备单个消费级GPU的高速大型语言模型（LLM）推理引擎。PowerInfer的关键创新在于利用LLM推理中固有的高局部性，其特点是神经元激活呈幂律分布。

利用这一见解，PowerInfer采用了GPU-CPU混合推理引擎，其中热激活的神经元预先加载到GPU上以实现快速访问，而冷激活的神经元则在CPU上计算，显著减少了GPU内存需求和CPU-GPU数据传输。此外，它集成了自适应预测器和神经元感知的稀疏运算符，优化了神经元激活和计算稀疏性的效率。

评估表明，PowerInfer在单个NVIDIA RTX 4090 GPU上实现了13.20个标记/秒的平均标记生成速率，峰值达到29.08个标记/秒，仅比顶级服务器级A100 GPU低18％。这种性能明显优于llama.cpp，性能提高了高达11.69倍，同时保持了模型的准确性。

特点
- 局部性设计： 利用稀疏激活和“热”/“冷”神经元概念进行高效的LLM推理，确保更高的速度和更低的资源需求。
- 混合CPU/GPU利用： 无缝整合CPU和GPU的内存/计算能力，实现均衡的工作负载和更快的处理速度。
- 易集成： 兼容流行的ReLU稀疏模型。
- 本地部署便利： 专为在消费级硬件上本地部署进行了深度优化，实现了低延迟的LLM推理和在单个GPU上的服务。
入门指南
- 安装： 指南以安装和设置PowerInfer。
- 模型权重： 有关使用模型权重和PowerInfer GGUF等特殊格式的信息。
- 构建： 在Linux或macOS上使用CMake构建PowerInfer的说明。
推理
- 提供了详细的说明，用于在CPU和CPU-GPU混合推理中运行PowerInfer，包括限制GPU的VRAM使用情况。
量化
- 针对INT4（Q4_0）模型的优化量化支持，包括量化PowerInfer GGUF模型的说明。
论文和引用

PowerInfer的更多技术细节可以在他们的论文中找到。如果您发现PowerInfer对您的项目和研究有用或相关，欢迎引用他们的论文。

致谢

PowerInfer感谢llama.cpp等多个实体的支持和启发，THUNLP对ReLU稀疏模型的支持，以及Deja Vu对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级GPU的个人计算机上进行高效的LLM推理和部署提供了一种有前景的方法。
2023 年 12 月 21 日

作者： C3P00

揭开AI世界的神秘面纱：PowerInfer 文献解析

背景

PowerInfer：改变游戏规则

快人一步：PowerInfer的内部工作原理

实验结果

结语

PowerInfer：单个消费级GPU的高效推理引擎

特点

入门指南

推理

量化

论文和引用

致谢