知差（chai）

月度归档： 2023 年 6 月

vLLM 加速LLM推理24倍
UC伯克利开源了 vLLM 这个大语言模型推理和服务引擎。

主要亮点包括:
1. 使用新的PagedAttention注意力算法,可以有效管理注意力键值缓存,节省内存开销。
2. 性能明显优于HuggingFace Transformers, 吞吐量提升24倍。
3. 能够在GPU资源有限的情况下提供LLM服务。
4. 能支持各种LLM模型架构,如GPT系列、LLaMA等。
5. vLLM已经被用于Chatbot Arena和Vicuna LM模型的服务后端,提升吞吐量30倍。
主要技术亮点在于PagedAttention算法。它通过在非连续内存空间中存储注意力键值,有效管理内存。

使用vLLM可以很容易完成离线推理和在线部署,提供类似OpenAI API的服务。项目对于降低LLM服务的成本和难度具有重要意义,有利于更多机构和团队部署自己的LLM服务。vLLM是一个值得关注的开源项目,解决了LLM服务效率和可伸缩性方面的重大挑战。
2023 年 6 月 25 日
平均帧率稳定，但是掉帧的问题
解决方案：
- 显示器帧率配置了动态帧率？可以尝试关闭；
- 低延迟模式打开没？可以在Nvidia显卡控制台打开reflex尝试下；gsync也可以关闭试一下；
- 大小核心架构的CPU？可以用process lasso 来设置相关进程只使用大核心；
- 内存频率设置太高？降低到默认频率试试；
- 鼠标的回报速率是不是太高？可以设置到600fps；
- 风扇是不是太脏了？散热问题？
- 核心显卡到驱动是不是没有更新？有独立显卡时，别忘记更新核心显卡的驱动；
2023 年 6 月 3 日

月度归档： 2023 年 6 月

vLLM 加速LLM推理24倍

平均帧率稳定，但是掉帧的问题