大模型推理加速新突破:FlashDecoding++

大型语言模型 (LLM) 正在改变世界,从生成文本到翻译语言,再到编写代码,LLM 的应用范围越来越广。然而,LLM 的推理速度一直是制约其应用的关键因素。为了解决这个问题,研究人员一直在探索各种方法来加速 LLM 推理。

本文将介绍一篇名为 “FlashDecoding++: Faster Large Language Model Inference on GPUs” 的论文,该论文提出了一种新的 LLM 推理加速技术,可以在 GPU 上显著提高推理速度。

LLM 推理加速的挑战

加速 LLM 推理面临着三大挑战:

  1. 同步部分 Softmax 更新: Softmax 操作需要对每个部分 Softmax 结果进行同步更新,这导致了 LLM 中注意力计算的约 20% 的开销。
  2. 扁平 GEMM 的计算利用率低下: LLM 推理中执行 GEMM 的矩阵形状是扁平的,导致计算利用率低下,在之前的设计中,填充零后会导致超过 50% 的性能损失。
  3. 静态数据流导致的性能损失: LLM 中的内核性能取决于不同的输入数据特征、硬件配置等。单一且静态的数据流会导致 LLM 推理中不同形状的 GEMM 出现 50.25% 的性能损失。

FlashDecoding++ 的解决方案

FlashDecoding++ 针对上述挑战提出了以下解决方案:

  1. 异步 Softmax 与统一最大值: FlashDecoding++ 引入了一种统一最大值技术,用于不同的部分 Softmax 计算,从而避免同步。
  2. 双缓冲的扁平 GEMM 优化: FlashDecoding++ 指出不同形状的扁平 GEMM 面临着不同的瓶颈。然后,引入了双缓冲等技术。
  3. 硬件资源自适应的启发式数据流: FlashDecoding++ 使用不同的硬件资源,考虑输入动态,启发式地优化数据流。

性能提升

FlashDecoding++ 的优化策略使其在 NVIDIA 和 AMD GPU 上都取得了显著的性能提升,与 Hugging Face 实现相比,分别实现了高达 4.86 倍和 2.18 倍的加速。与主流 LLM 上最先进的 LLM 推理引擎相比,FlashDecoding++ 的平均加速比为 1.37 倍。

总结

FlashDecoding++ 提出了一套全面的 LLM 推理加速解决方案,有效地解决了 LLM 推理中的三大挑战。其在主流 LLM 和硬件平台上的出色表现,为 LLM 的广泛应用提供了强有力的支持。

参考文献

注: 本文仅对 FlashDecoding++ 论文进行了简要介绍,更多细节请参考原文。


在GPU上推理大规模语言模型(LLM)的性能至关重要,而FlashDecoding++是一款针对LLM推理的快速引擎,通过解决同步部分softmax更新、未充分利用的扁平化GEMM计算和静态数据流等挑战,实现了显着的推理加速效果。

解决同步部分softmax更新的挑战:
FlashDecoding++引入了异步softmax和统一最大值的技术,避免了在计算部分softmax结果时需要同步更新的问题。每个部分softmax结果可以独立进行处理,无需进行同步操作,从而减少了计算中的开销。

解决未充分利用的扁平化GEMM计算的挑战:
FlashDecoding++通过双缓冲技术对扁平化GEMM计算进行了优化,隐藏了内存访问延迟,提高了计算利用率。它在共享内存中分配了两个独立的缓冲区,一个缓冲区用于进行GEMM计算,而另一个缓冲区则用于加载下一个GEMM操作所需的数据。通过这种方式,计算和内存访问可以同时进行,实现了计算与存储的重叠。

解决静态数据流的挑战:
FlashDecoding++采用了启发式数据流和硬件资源适应的方法。它根据输入动态和硬件配置,在不同的线性工作负载下动态优化数据流,选择最佳的实现方式。通过根据不同工作负载的特点进行灵活调整,FlashDecoding++实现了最佳的推理性能。

性能评估:
FlashDecoding++在多个硬件平台上进行了性能评估,包括NVIDIA和AMD的GPU。与Hugging Face、vLLM、DeepSpeed、TensorRT-LLM、OpenPPL和FlashDecoding等LLM推理引擎进行了比较。结果表明,FlashDecoding++相对于这些基线引擎实现了显着的加速效果,提供了高达4.86倍的推理速度提升。


发表评论