月度归档: 2023 年 6 月

  • vLLM 加速LLM推理24倍

    UC伯克利开源了 vLLM 这个大语言模型推理和服务引擎。

    主要亮点包括:

    1. 使用新的PagedAttention注意力算法,可以有效管理注意力键值缓存,节省内存开销。
    2. 性能明显优于HuggingFace Transformers, 吞吐量提升24倍。
    3. 能够在GPU资源有限的情况下提供LLM服务。
    4. 能支持各种LLM模型架构,如GPT系列、LLaMA等。
    5. vLLM已经被用于Chatbot Arena和Vicuna LM模型的服务后端,提升吞吐量30倍。

    主要技术亮点在于PagedAttention算法。它通过在非连续内存空间中存储注意力键值,有效管理内存。

    使用vLLM可以很容易完成离线推理和在线部署,提供类似OpenAI API的服务。项目对于降低LLM服务的成本和难度具有重要意义,有利于更多机构和团队部署自己的LLM服务。vLLM是一个值得关注的开源项目,解决了LLM服务效率和可伸缩性方面的重大挑战。

  • 平均帧率稳定,但是掉帧的问题

    解决方案:

    • 显示器帧率配置了动态帧率?可以尝试关闭;
    • 低延迟模式打开没?可以在Nvidia显卡控制台打开reflex尝试下;gsync也可以关闭试一下;
    • 大小核心架构的CPU?可以用process lasso 来设置相关进程只使用大核心;
    • 内存频率设置太高?降低到默认频率试试;
    • 鼠标的回报速率是不是太高?可以设置到600fps;
    • 风扇是不是太脏了?散热问题?
    • 核心显卡到驱动是不是没有更新?有独立显卡时,别忘记更新核心显卡的驱动;