博客

使用24GB消费级GPU进行20B LLMs的RLHF微调

欢迎各位读者，今天我们要聊聊一件新鲜事。没错，就是在一台24GB的消费级GPU上，如何对20B参数的大型语言模型（LLM）进行RLHF（人工反馈强化学习）的微调。这个工作得益于我们的新工具——trl和peft的完美结合。让我们一起来探索这个新颖的微调方法，以及它如何变得更加容易实现。

一、 LLMs & RLHF：AI领域的新星

首先，让我们来了解一下大型语言模型（LLMs）和人工反馈强化学习（RLHF）。结合使用LLMs和RLHF，我们可以构建出像ChatGPT这样的强大AI系统。这个过程通常包括三个步骤：首先，我们在特定领域或语料库的指令和人类示例上微调预训练的LLM；然后，我们收集一个人工注释的数据集，训练一个奖励模型；最后，我们用奖励模型和这个数据集使用RL（比如PPO）进一步微调第一步中的LLM。

二、什么是TRL？

trl库的目标是使RL步骤更容易和更灵活，任何人都可以在自定义的数据集和训练设置上使用RL微调他们的LM。你可以使用trl来运行最流行的深度RL算法，PPO，这可以在分布式方式或单一设备上实现！为了实现这一目标，我们利用了Hugging Face生态系统中的accelerate工具，以便任何用户都可以扩大实验规模。

三、大规模训练的挑战

大规模训练可能会遇到挑战。首要挑战是将模型及其优化器状态装入可用的GPU设备。一个参数在GPU内存中所占的空间取决于其”精度”（或者更具体地说，dtype）。最常见的dtype包括float32（32位），float16和bfloat16（16位）。简单来说，要在GPU设备上加载一个模型，每十亿个参数在float32精度下需要4GB的内存，在float16下需要2GB，而在int8下需要1GB。

四、 8位矩阵乘法

8位矩阵乘法是一种高效的方法，首次在论文LLM.int8()中提出，旨在解决量化大规模模型时性能下降的问题。简单地说，如果你使用8位矩阵乘法，你可以将全精度模型的大小减少4倍（因此，对于半精度模型，可以减少2倍）。

五、低秩适应和PEFT

在2021年的论文LoRA: Low-Rank Adaption of Large Language Models中，研究者们证明了可以通过冻结预训练的权重并创建低秩版本的注意力矩阵的查询和值层，对大型语言模型进行微调。这种技术使LLMs的微调只需要一小部分的内存需求。

六、什么是PEFT？

参数高效微调（PEFT）是一个由Hugging Face创建的库，用于支持在LLMs上创建和微调适配器层。peft已经无缝地集成了Accelerate，可以利用DeepSpeed和Big Model Inference对大规模模型进行扩展。

七、 20B参数模型的低秩适配器微调

那么，现在让我们来具体谈谈如何在24GB的消费级GPU上对20B参数的LLM进行微调。我们通过使用TRL库，可以在个人的数据集和训练设置中用RL微调LM。TRL库使用Hugging Face生态系统的accelerate工具，使得任何用户都可以将实验规模扩大到有趣的范围。

而在大规模训练中，首要的挑战是如何将模型及其优化器状态装入可用的GPU设备。一种有效的解决方案是使用8位矩阵乘法，这种方法能够减少全精度模型的大小，从而使其适应硬件资源。

同时，我们引入了低秩适应和PEFT技术。低秩适应是一种可以通过冻结预训练的权重并创建低秩版本的注意力矩阵的查询和值层，对大型语言模型进行微调的技术。这种技术使LLMs的微调只需要一小部分的内存需求。而PEFT（参数高效微调）则是一个由Hugging Face创建的库，用于支持在LLMs上创建和微调适配器层。

这样，我们就可以在24GB的消费级GPU上进行20B参数模型的低秩适配器微调了。这个过程中，我们使用了trl和peft的集成，使得大型语言模型的微调变得更加容易实现，也更适应于硬件资源。

总的来说，我们现在有了更多的工具和方法来更有效地微调大型语言模型，这将使得AI系统，如ChatGPT，变得更加强大和实用。这是一次令人兴奋的进步，也预示着AI技术将带来更多的可能性。

2023 年 11 月 2 日
将艺术赋予控制力：探索ControlNet在Diffusers中的应用

大家好，我来给大家介绍一项令人兴奋的技术——ControlNet。这项技术为我们提供了一种全新的方法，让我们能够在图像生成过程中拥有更大的控制权。那么，ControlNet究竟是什么呢？又能带给我们怎样的可能性呢？接下来，让我们一起揭开ControlNet的神秘面纱。

ControlNet简介

ControlNet是由张璐民和Maneesh Agrawala在其研究成果“Adding Conditional Control to Text-to-Image Diffusion Models”中提出的一种框架。它提供了一种支持各种空间上下文的方法，这些上下文可以作为Diffusion模型（如Stable Diffusion）的额外条件。让我们通过一些例子来看看ControlNet的强大之处。

想象一下，你有一个卡通图案，你想将它转化成一张逼真的照片，或者你有一个室内设计的草图，你希望看看它在现实中的效果。这些都可以通过ControlNet来实现。你甚至可以让一些著名的标志图案栩栩如生。ControlNet的应用极限只在于你的想象力。

ControlNet的工作原理

那么，ControlNet是如何工作的呢？首先，我们复制一个Diffusion模型（例如Stable Diffusion）的预训练参数，并将其称为“可训练副本”，同时也保留预训练参数的另一份副本，称为“锁定副本”。”可训练副本”用于学习任务特定的内容，而”锁定副本”则用于保留大数据集中学习到的丰富知识。然后，通过优化为ControlNet框架设计的“零卷积”层，将两份参数连接起来。这是一种训练技巧，可以在训练新条件时保留模型已经学到的语义。

体验ControlNet

接下来，让我们亲自体验一下ControlNet。首先，我们需要确保已经安装了所有必要的库。我们还需要安装一些额外的依赖项，以便处理不同的ControlNet条件。

准备好之后，我们就可以开始了。我们选择了一幅著名的画作——《戴珍珠耳环的少女》作为例子。首先，我们将图像进行Canny预处理，这实际上是一个边缘检测的过程。

之后，我们加载预训练的模型，并将模型设置为半精度（torch.dtype），以便进行快速且内存高效的推理。在加载模型时，我们还使用了一个叫做UniPCMultistepScheduler的调度器，它能大幅减少推理时间。

接下来，我们将管道设置为开启智能CPU卸载，并启用FlashAttention/xformers注意力层加速，以节省内存消耗并提高推理速度。

准备工作完成后，我们就可以开始运行ControlNet管道了！我们以“Sandra Oh，最高质量，极其详细”为提示，生成了一系列惊人的图像。其中，我们还可以看到一些现代名人仿照17世纪的这幅画作进行摆拍的图像。

结语

ControlNet技术为我们提供了一个全新的创作方式，让我们能够在生成过程中拥有更多的控制权。我们期待着看到更多的创新应用和独特创作。感谢你的阅读，我们下次再见！

2023 年 11 月 2 日
Cython并行编程：揭秘Cython并行模块
欢迎各位读者，我们今天将要探索的主题是Cython的并行编程功能。如果你是一名Python开发者，对于如何提升代码运行效率感兴趣，那么本文定会让你大开眼界。Cython是一个强大的工具，它能让Python代码运行得更快，而且还支持原生的并行化。今天，我们要深入探索的正是Cython 3版本的并行模块。

Cython并行模块的使用需要明确两种语法：Cython专有的cdef语法和纯Python语法。这两种语法都能让我们在Python代码中使用C数据类型，只需要导入特殊的cython模块即可。值得注意的是，使用纯Python语法时，我们强烈推荐你使用最新的Cython 3版本。

Cython通过cython.parallel模块支持原生并行化。要使用此类并行化，必须释放GIL（Python全局解释器锁）。目前，Cython支持OpenMP，未来可能会支持更多后端。

并行循环：cython.parallel.prange()

Cython提供了一个名为prange的函数，用于并行循环开发。prange函数会自动启动一个线程池，并根据设定的调度策略分配工作。它的使用方式与Python的range函数相似，但是提供了更多功能，包括线程局部变量、变量归约和私有变量。以下是两个简单的例子，一个使用纯Python语法，一个使用Cython语法：
```
from cython.parallel import prange

i = cython.declare(cython.int)
n = cython.declare(cython.int, 30)
sum = cython.declare(cython.int, 0)

for i in prange(n, nogil=True):
    sum += i
```
```
from cython.parallel import prange

cdef int i
cdef int n = 30
cdef int sum = 0

for i in prange(n, nogil=True):
    sum += i
```
并行区域：cython.parallel.parallel()

Cython还提供了parallel指令，它可以用在with语句中，以并行方式执行代码序列。这在设置prange中用于线程局部缓冲区的情况下非常有用。下面的例子展示了如何使用线程局部缓冲区：
```
from cython.parallel import parallel, prange
from cython.cimports.libc.stdlib import abort, malloc, free

@cython.nogil
@cython.cfunc
def func(buf: cython.p_int) -> cython.void:
    pass
    # ...

idx = cython.declare(cython.Py_ssize_t)
i = cython.declare(cython.Py_ssize_t)
j = cython.declare(cython.Py_ssize_t)
n = cython.declare(cython.Py_ssize_t, 100)
local_buf = cython.declare(p_int)
size = cython.declare(cython.size_t, 10)

with cython.nogil, parallel():
    local_buf: cython.p_int = cython.cast(cython.p_int, malloc(cython.sizeof(cython.int) * size))
    if local_buf is cython.NULL:
        abort()

    # populate our local buffer in a sequential loop
    for i in range(size):
        local_buf[i] = i * 2

    # share the work using the thread-local buffer(s)
    for j in prange(n, schedule='guided'):
        func(local_buf)

    free(local_buf)
```
获取线程ID：cython.parallel.threadid()

Cython并行模块还提供了threadid函数，用于获取当前线程的ID。对于n个线程，ID将从0到n-1。

编译

最后，要实# Cython并行编程：揭秘Cython 3.0.5并行模块

欢迎来到我们今天的故事，我要带你一起探索一个神秘的领域——Cython的并行编程。如果你是Python的忠实粉丝，对如何提升Python代码运行效率的问题抱有热切的兴趣，那么这篇文章一定不会让你失望。接下来，我们要深入探讨的是Cython 3.0.5版本的并行模块。

首先，我们需要了解Cython提供了两种语法：Cython专有的cdef语法和纯Python语法。这两种语法都能让我们在Python代码中使用C数据类型，只需要导入特殊的cython模块即可。如果你选择使用纯Python语法，强烈推荐你使用最近的Cython 3版本，这样你将会体验到更多的改进和优化。

Cython通过cython.parallel模块支持原生的并行化。要使用这种并行化，必须释放GIL（Python全局解释器锁）。目前，Cython支持OpenMP，并且未来可能会支持更多的后端。

轻松实现并行循环：cython.parallel.prange()

Cython提供了一个名为prange的函数，用于并行循环开发。当你使用prange时，OpenMP会自动启动一个线程池，并按照你设定的调度策略分配工作。这个函数的参数与Python的range函数相似，但提供了更多的功能，包括线程局部变量和归约，以及最后的私有变量。你可以把prange看作是一个更强大、更灵活的range。

并行区域：cython.parallel.parallel()

除了prange，Cython还提供了parallel函数，它允许你在一个指定的代码块中并行执行多个任务。这在你需要在prange的循环体中使用线程局部缓冲区的场景中特别有用。

获取线程ID：cython.parallel.threadid()

在一些情况下，你可能需要知道当前执行的是哪一个线程。Cython并行模块提供了threadid函数，你可以通过它获取当前线程的ID。

Cython的并行编程功能为Python开发者提供了一个强大的工具，让Python代码能够更好地利用多核处理器的计算能力。这样不仅能提高代码的执行效率，还能在处理大数据或者复杂计算任务时，带来更好的用户体验。

这就是我们今天要分享的内容，感谢你的阅读，希望这篇文章对你有所帮助。在编程的世界中，我们应该始终保持好奇和热情，不断探索未知，并享受其中的乐趣！
2023 年 11 月 2 日
探索Zig：小巧而强大的编程语言
你是否曾经对一门编程语言深入研究，却发现它的复杂性超出你的预期？你是否寻找过一种编程语言，既强大又灵活，同时又简单易懂？如果你的答案是肯定的，那么，让我来向你介绍一门称为Zig的语言，它可能正是你一直在寻找的那种语言。

Zig是一种专注于优化和易用性的编程语言。与C++、D和Rust等其他编程语言相比，Zig提供了一种全新的编程体验，让你可以真正专注于编程，而不是花费无尽的时间去理解编程语言本身。

Zig的主要特点

简洁易懂

Zig的语法简洁明了，全语法只有500行PEG文法文件。它没有隐藏的控制流，隐藏的内存分配，也没有预处理器和宏。这意味着如果Zig代码看起来没有跳转去调用一个函数，那么它就不会调用。这种清晰的语法规则极大地提高了代码的可读性和可维护性。

性能与安全并重

Zig提供了四种构建模式，你可以在编程时自由选择。这四种模式包括调试，释放安全，释放快速，和释放小。这为开发者提供了一种灵活的方式，可以在需要最大性能的地方禁用安全检查，而在其他地方保持代码的安全性。

兼容C语言

Zig不仅可以与C语言库无缝集成，而且还提供了一种编译C代码的方式。这使得Zig在处理跨平台编译时具有极高的效率。

Zig的优势

Zig的优势并不仅仅在于其简洁的语法和灵活的构建模式。还包括一些其他的特性，比如：
- 顶级声明的顺序独立性：Zig的全局变量的初始化值在编译时被计算，无需考虑声明顺序。
- 空指针的替代方案：Zig使用可选类型代替空指针，有效防止许多运行时异常。
- 手动内存管理：Zig允许程序员自行管理内存，使其代码可以在各种环境中运行，如桌面应用、低延迟服务器、操作系统内核、嵌入式设备、实时软件等。
Zig的设计目标是为了让你能尽可能地专注于自己的项目，而不是被编程语言本身的复杂性所困扰。如果你正在寻找一种小而强大，简洁而灵活的编程语言，那么Zig值得你一试。
2023 年 11 月 2 日
Zig编程语言：强大、简洁，又不失优雅

大家好，今天我们要来聊聊一个全新的通用编程语言：Zig。这是一款为了维护健壮、优化和可重用软件而设计的工具链。

Zig的设计理念

Zig力求简洁明了，让开发者可以将精力集中在调试应用程序上，而不是去理解复杂的语言知识。Zig没有隐藏的控制流，没有隐式的内存分配，也不使用预处理器或宏。这样一来，使用Zig编程，你总是清楚自己在做什么。

Zig的编译时间 (Comptime)

Zig引入了一种全新的元编程方式，它基于编译时的代码执行和惰性求值。在Zig中，你可以在编译时调用任何函数，无需担心运行时开销。Zig的编译时间（Comptime）可以模拟目标架构，让你在编程时就能预见到在实际运行环境中的行为。

Zig的可维护性

Zig提供了一种优雅的方式来逐步改进你的C/C++/Zig代码库。你可以把Zig当作一个零依赖的C/C++编译器使用，它天生支持跨平台编译。通过zig build，你可以在所有平台上创建一致的开发环境。你甚至可以向C/C++项目中添加Zig编译单元，Zig默认启用了跨语言的链接时间优化。

Zig社区

Zig社区是去中心化的，任何人都可以自由地开始并维护自己的社区聚集地。没有所谓的“官方”或“非官方”，不过，每个聚集地都有自己的版主和规则。

Zig的主要开发工作在GitHub的Zig仓库进行，你可以在那里找到问题跟踪器和提案讨论。我们希望所有的贡献者都能遵守Zig的行为准则。

Zig软件基金会

Zig软件基金会（ZSF）是一个于2020年由Zig的创造者Andrew Kelley成立的非营利性公司。基金会的目标是支持Zig语言的发展。目前，ZSF能够以竞争性的待遇为少数核心贡献者提供薪酬。我们希望在未来能够扩大这个优惠，让更多的核心贡献者得到薪酬。ZSF主要靠捐款维持运营。

Zig的赞助者

我们的赞助者包括一些公司和个人。他们为Zig提供了直接的财务支持，使得Zig项目可以对开源社区负责，而不是对公司股东负责。我们感谢所有赞助Zig的人，尤其是那些每月捐款200美元或以上的赞助者。

希望你能从Zig中找到乐趣，让我们一起探索这个新的编程世界！

2023 年 11 月 2 日
让PHP在浏览器上翱翔：Sean Morris 的 php-wasm 项目探索

你是否曾想过在浏览器中直接运行 PHP 代码？Sean Morris 带来的 php-wasm 项目就是为此而生。它将 PHP 引擎与 WebAssembly 结合，让 PHP 开发者能够在新的领域大展身手。这个项目的原始版本由 Oraoto 开发，Sean Morris 则对其进行了 ES6 和 Clang 的升级。让我们一起跟随这个项目的脚步，探索在浏览器中运行 PHP 的全新可能性。

项目简介：php-wasm

php-wasm 是一个开源项目，其目标是在浏览器中运行 PHP 代码。项目的主体部分托管在 GitHub 上，采用 Apache-2.0 许可证进行开源。其核心思想是将 PHP 与 WebAssembly 结合，让 PHP 开发者可以更方便地开发前端应用。

在这里，我们可以看到 php-wasm 项目的主页以及相关的代码，包括了许多文件夹和文件。例如，bin 文件夹中保存的是一些可执行文件，而 dist 文件夹中则保存了项目的构建结果。在项目主页的下方，我们还可以看到项目的 README 文件，其中详细介绍了项目的目标、功能和使用方法。

php-wasm 的特色与功能

php-wasm 提供了一套完善的应用解决方案，让开发者可以在浏览器中运行 PHP 代码。项目的最新版本为 v0.0.8，秉承“准备起飞”的精神，带来了一系列新的功能和改进。

首先，php-wasm 支持 ESM 和 CDN 模块，扩大了项目的适用范围。此外，它还增加了对 stdin 的支持，让开发者可以在 JavaScript 中对 stdout/stderr 进行缓存。同时，它还支持 <script type = "text/php"> 的方式运行 PHP 代码，让开发者可以在页面中直接使用 PHP。此外，php-wasm 还添加了对 iconv 和 html-tidy 的支持，提升了项目的兼容性。

php-wasm 还具备了一些强大的功能，包括内置的 PHP 和取出输出的能力，以及在 web 和 node 中进行构建的能力。此外，它还提供了一种简洁的方式来打包文件，让开发者可以更方便地管理项目。最后，php-wasm 对 PHP 进行了更新，使其达到了 8.2.11 版本，并使用 Emscripten 3.1.43 进行构建，进一步提升了项目的性能。

总的来说，php-wasm 项目以其独特的理念和强大的功能，为 PHP 开发者打开了全新的可能，让他们可以在浏览器中运行 PHP 代码，提供了一种全新的开发方式。

如何使用 php-wasm？

要使用 php-wasm，首先需要将 php-tags.js 脚本从 CDN 中引入。然后，就可以在页面中直接运行 PHP 代码了。例如，通过 <script type = "text/php"> 的方式，我们可以直接在页面中运行 <?php phpinfo(); ?>。此外，我们还可以通过 data- 属性来使用标准输入、输出和错误，只需将属性值设置为与标签匹配的选择器即可。

php-wasm 还支持在 <script type = "text/php"> 标签以及其输入元素上使用 src 属性。例如，我们可以在 script 标签中引入一个 PHP 文件，并指定其输入和输出。

结语

php-wasm 项目为 PHP 开发者提供了一种全新的工作方式，让他们可以在浏览器中运行 PHP 代码，开拓了新的开发领域。项目的源代码托管在 GitHub 上，开放给全球的开发者，共同推动这个项目的进步。Sean Morris 的努力和创新，不仅让 PHP 开发者得到了更多的可能性，也让我们看到了开源社区的活力和创新。

2023 年 11 月 2 日
Redis的BLPOP、BRPOPLPUSH 系列指令
Redis 是一个高性能的键值对存储系统，它支持多种数据结构，包括字符串、列表、哈希、集合、有序集合等。这里我们来介绍一下 Redis 的 BLPOP 和 BRPOPLPUSH 系列命令。

BLPOP (Blocking Left POP)

BLPOP 是一个阻塞的列表弹出操作。它是 LPOP 的阻塞版本，可以从列表的最左侧（头部）移除并获取一个元素。如果列表为空或不存在，BLPOP 命令将阻塞连接，直到等待的列表中有可弹出的元素或达到超时时间。其基本用法如下：
```
BLPOP key1 key2 ... keyN timeout
```
在这里，key1，key2 到 keyN 是你想要弹出元素的列表，timeout 是阻塞超时时间（单位是秒）。命令返回的是一个两元素的数组，第一个元素是被弹出元素所在的列表名，第二个元素是被弹出的元素。如果达到超时时间，命令将返回 nil。

BRPOPLPUSH (Blocking Right POP Left PUSH)

BRPOPLPUSH 命令是 BRPOP 和 LPUSH 的组合。它从一个列表的最右侧（尾部）移除元素，并将该元素添加到另一个列表的最左侧（头部）。如果源列表为空，该命令将阻塞连接，直到源列表中有可弹出的元素或达到超时时间。其基本用法如下：
```
BRPOPLPUSH source destination timeout
```
在这里，source 是源列表，destination 是目标列表，timeout 是阻塞超时时间（单位是秒）。命令返回的是被弹出并推入目标列表的元素。如果达到超时时间，命令将返回 nil。

BRPOPLPUSH 命令是原子性的，这意味着即便是在多个客户端并发执行这个命令的情况下，也不会有竞态条件（race condition）的发生。这使得 BRPOPLPUSH 非常适合实现可靠的队列——即使在处理过程中发生了错误或者服务器崩溃，你也可以通过目标列表恢复数据。
2023 年 11 月 2 日
Würstchen：引领图像生成的速度革新
大家好，今天我要给大家介绍一款名为 Würstchen 的新型图像生成模型。这款模型由 Hugging Face 公司开发，它是一种扩散模型，能够在高度压缩的图像潜在空间中进行文本条件操作。这项技术的优势在于能大大降低训练和推理的计算成本。以前我们在处理 1024×1024 的图像时，需要花费大量的计算资源，而现在，通过 Würstchen，我们可以用相当于 32×32 图像的资源来完成这项工作，这无疑是一个巨大的突破。

Würstchen 的设计新颖，实现了 42 倍的空间压缩，这在之前是无法想象的。它采用了两阶段压缩，我们称之为A阶段和B阶段。A阶段是一个 VQGAN，B阶段是一个扩散自编码器。A阶段和B阶段共同被称为解码器，因为它们将压缩后的图像解码回像素空间。还有一个第三阶段模型，称为 Prior，它在高度压缩的潜在空间中进行学习，这种训练需要的计算资源只是当前顶级模型的一小部分，同时也让推理变得更便宜、更快。

那么，为什么我们需要另一个文本到图像的模型呢？原因很简单，因为 Würstchen 非常快且高效。比起像 Stable Diffusion XL 这样的模型，Würstchen 可以更快地生成图像，同时使用的内存也更少。此外，Würstchen 的训练成本也大大降低，Würstchen v1 只需要 9,000 GPU 训练小时，而 Stable Diffusion 1.4 需要 150,000 GPU 训练小时。这意味着更多的组织可以训练这样的模型。

使用 Würstchen 也非常简单。您可以通过 Diffusers 库来使用它，下面是一个使用 AutoPipeline 进行推理的例子：
```
import torch
from diffusers import AutoPipelineForText2Image
from diffusers.pipelines.wuerstchen import DEFAULT_STAGE_C_TIMESTEPS

pipeline = AutoPipelineForText2Image.from_pretrained("warp-ai/wuerstchen", torch_dtype=torch.float16).to("cuda")

caption = "Anthropomorphic cat dressed as a firefighter"
images = pipeline(
    caption,
    height=1024,
    width=1536,
    prior_timesteps=DEFAULT_STAGE_C_TIMESTEPS,
    prior_guidance_scale=4.0,
    num_images_per_prompt=4,
).images
```
Würstchen 在 1024×1024 到 1536×1536 之间的图像分辨率上进行训练，同时我们也注意到，在 1024×2048 这样的分辨率上，Würstchen 也能产生很好的结果。我们还发现，Prior（第三阶段模型）能够非常快速地适应新的分辨率，因此在 2048×2048 的分辨率上进行微调应该是计算成本非常低的。

此外，Würstchen 还提供了一些优化技术，包括使用 PyTorch 2 SDPA 加速注意力机制，为 Apple Silicon Mac 提供的 mps 设备支持，以及使用生成器进行可复现性优化等。

在此，我们要感谢 Stability AI 提供的计算资源，使得我们能够训练出这样的模型，我们希望这项研究能够对更多的研究者和开发者带来帮助，提升他们在图像生成领域的工作效率。

Würstchen 的所有检查点都可以在 Huggingface Hub 上查看。在那里，您可以找到多个检查点，以及未来的演示和模型权重。目前，Prior有三个检查点，Decoder有一个检查点。请在文档中查看检查点的解释，以及不同的 Prior 模型的用途。

因为 Würstchen 完全集成在 Diffusers 中，所以它自带各种好处和优化。其中包括：
- 自动使用 PyTorch 2 SDPA 加速的注意力机制。
- 支持 xFormers 的 flash 注意力实现，如果你需要使用 PyTorch 1.x 而不是 2.x。
- 模型卸载，将未使用的组件在不使用时移动到 CPU，这可以节省内存，而对性能影响微乎其微。
- 顺序 CPU 卸载，适用于内存非常宝贵的情况。内存使用将被最小化，代价是推理速度较慢。
- 使用 Comp 进行提示权重。
在这里，我们的介绍就要结束了，但 Würstchen 的旅程才刚刚开始。这个新模型将在图片生成领域带来革命性影响，无论是在计算成本、效率还是在图像质量上，都有显著的提升。我们期待它在未来能够带给更多研究人员和开发者便利和启发。感谢大家的阅读，我们下次再见！
2023 年 11 月 2 日
进入3D高斯投影的奇妙世界：开创图形渲染新纪元

大家好，欢迎来到今天的科技博客，我要引领大家进入一个充满奇妙创新的世界——3D高斯投影。这是一种由《3D高斯投影用于实时辐射场渲染》一文描述的光栅化技术，它带来了摄影级别的实时场景渲染。

3D高斯投影到底是什么？

首先，让我们来揭开3D高斯投影的神秘面纱。它是一种光栅化技术，这意味着它将场景描述的数据绘制在屏幕上，如同计算机图形中的三角形光栅化一样。然而，这里的主角并不是三角形，而是高斯分布。每一个高斯分布都被一些参数所描述，包括它的位置（XYZ）、协方差（即它的拉伸或缩放，由3×3矩阵表示）、颜色（RGB）以及透明度（α）。在实际应用中，这些高斯分布会被同时绘制出来，从而形成了我们所看到的3D图像。

3D高斯投影的工作原理

接下来，我将为大家详细介绍一下3D高斯投影的全过程。

首先，通过利用Structure from Motion（SfM）方法，我们可以从一组图片中估算出一个点云。然后，这些点会被转换成高斯分布，这已经足够进行光栅化了。接下来，我们需要通过训练来学习一个可以产生高质量结果的表示。

在训练过程中，我们使用了类似于神经网络的随机梯度下降，但没有涉及到层的概念。训练步骤包括使用可微的高斯光栅化将高斯分布光栅化为图像，计算光栅化图像与真实图像之间的差异，根据损失调整高斯参数，并应用自动化的密集化和剪枝。这使得高斯分布能更好地适应细致的细节，同时剪除不必要的高斯分布。

作为光栅化技术，3D高斯投影的关键在于它的快速性和可微性。每一个高斯分布都会从摄像机的视角投影到2D空间，按深度排序，然后每个像素会依次迭代每个高斯分布，将它们混合在一起。

3D高斯投影的重要性

那么，为什么3D高斯投影会引起人们的广泛关注呢？答案很明显，它能实时渲染出高质量的场景。而且，它还有很多未知的可能性，例如是否可以进行动画渲染？是否可以进行反射渲染？是否可以在不依赖参考图像的情况下进行建模？此外，3D高斯投影对于很多AI研究领域，如Embodied AI，也可能带来深远的影响。

3D高斯投影和图形的未来

那么，3D高斯投影对图形的未来意味着什么呢？它的优点包括能快速地实时渲染出高质量的照片级别场景，并且训练过程也相对较快。然而，也存在一些缺点，比如它需要大量的视频内存（查看需要4GB，训练需要12GB），生成的场景文件大小也较大，达到1GB以上。此外，它与现有的渲染管线并不兼容，生成的场景是静态的，不能动态改变。

虽然3D高斯投影带来了一些挑战，但它的出现无疑是图形渲染领域的一大创新。它打开了一个全新的可能性，也许在不久的将来，我们将看到更多利用3D高斯投影的实时、高质量的渲染效果。

结语

在这篇博客中，我们对3D高斯投影进行了初步的探讨。这是一个既神秘又充满无限可能性的领域。虽然它目前还存在一些局限性，但我们相信，随着科研人员的不断探索和技术的不断进步，3D高斯投影将为未来的图形渲染开创全新的纪元。

2023 年 11 月 2 日
以强化学习让生成模型更符合人类审美：DDPO与TRL的完美结合

亲爱的读者，你是否曾经想过，我们能否让人工智能生成的图片更符合人类的审美呢？今天，我们就要带你探索这个问题的答案。我们将介绍如何使用DDPO（Denoising Diffusion Policy Optimization）通过TRL（Transformers Library）微调稳定扩散模型，从而使AI生成的图像更符合人类的审美。这是一场充满挑战与创新的神经网络冒险之旅，让我们一起启程吧！

一、DDPO与微调扩散模型的优势

首先，我们必须理解的是，DDPO不是微调扩散模型的唯一方法，但它的优势却是显而易见的。以计算效率和准确性为首的一系列特点，使得DDPO成为了扩散模型微调的理想选择。相比于之前的方法，DDPO将去噪步骤视为一个多步马尔可夫决策过程（MDP），并在最终获得奖励。这种全新的方法，使得代理策略能够成为一个各向同性的高斯分布，而不是一个复杂的分布。因此，DDPO不仅提高了计算效率，还减少了误差的堆积，为我们提供了更精准的结果。

二、DDPO算法简述

DDPO算法主要使用了一种策略梯度方法，即近端策略优化（PPO）。在使用PPO的过程中，我们注意到，DDPO算法的独特之处主要体现在轨迹收集部分。为了更好地理解这个过程，我们提供了一个简单的流程图，帮助你理解DDPO在动作中的运作方式。

三、DDPO与RLHF：增强审美性的混合

了解了DDPO的工作原理后，我们会发现，将DDPO与RLHF（Reinforcement Learning from Human Feedback）结合起来，可以更有效地让模型的输出符合人类的审美。在这个过程中，我们首先使用预训练的扩散模型，然后收集人类偏好的数据并使用它来训练奖励模型，最后使用DDPO和奖励模型进行微调。这个过程不仅高效，而且结果非常令人满意，得到的图像更符合人类审美。

四、使用DDPO训练稳定扩散模型

让我们深入了解一下如何使用DDPO训练稳定扩散模型。首先，你需要具备一定的硬件条件，例如拥有一台A100 NVIDIA GPU。然后，安装trl库和其他一些必要的依赖。在设置完硬件和软件环境后，你就可以开始实际的训练过程了。

我们的训练过程主要使用了trl库中的DDPOTrainer和DDPOConfig类。我们提供了一个示例训练脚本，该脚本利用这两个类和一些默认参数，对预训练的稳定扩散模型进行微调。在训练过程中，我们使用了一种审美奖励模型，该模型的权重是从公开的HuggingFace仓库中读取的。因此，你不需要自己收集数据和训练审美奖励模型。

最后，我们通过python命令启动训练脚本，然后就可以看到训练过程的实时输出了。这个过程可能需要一些时间，所以请耐心等待。完成训练后，你就可以使用微调后的模型生成新的图像了。

五、总结

今天，我们一起探讨了如何使用DDPO通过TRL微调稳定扩散模型。在这个过程中，我们深入了解了DDPO的优势和工作原理，以及如何将其与RLHF结合起来，以便更好地使模型的输出符合人类的审美。我们还详细介绍了使用DDPO训练稳定扩散模型的具体步骤。

2023 年 11 月 2 日
让人工智能向无穷无尽的流畅表达迈进 — 探索“注意力吸收器”

在我们日常的对话中，有没有想过让人工智能（AI）也能如人类一样自由流畅地进行长时间的交流？今天，我们将一同探索一种新的技术——“注意力吸收器”，它可能会引领我们走向这个目标。

为何我们需要“注意力吸收器”？

大规模语言模型（LLMs）近年来引领了聊天机器人和虚拟助手的技术进步，但是，它们也存在一些限制。这些限制主要体现在两个方面：视频随机存取内存（VRAM）的使用和流畅度的丧失。

当我们使用LLMs进行长时间的对话时，模型的VRAM使用会呈线性增长，这可能会导致设备的内存限制。另一方面，当输入的内容过长，模型的表达流畅度会明显下降，表现为生成无意义的字符，或者重复的词汇。为了解决这些问题，我们研究了一种名为“注意力吸收器”的方法。

窗口注意力：一种尝试解决方法

为了解决VRAM使用问题，我们可以尝试限制输入到LLM的令牌数量，这种方法被称为窗口注意力。

在实验中，我们将窗口大小设置为1024个令牌。结果显示，虽然这种方法可以保持内存的稳定使用，但是一旦超过窗口大小，模型的表达能力就会显著下降。

注意力吸收器：新的解决思路

2023年，Xiao等人发现，当应用窗口注意力时，模型在窗口中的第一个令牌被移除后，模型的流畅度立即下降。他们注意到，即使是语义上不重要的令牌，也会占据大量的注意力分数。他们将这些令牌称为“注意力吸收器”。

基于这个发现，他们提出了一种改进的窗口注意力方法，即在窗口中始终保留初始的四个令牌，也就是“注意力吸收器”。这种方法有效地解决了窗口注意力中的一个关键问题：当第一个令牌从窗口中移除时，模型无法将注意力分数转移到该令牌上，从而导致模型失去流畅度。

结论：注意力吸收器的威力

我们使用注意力吸收器进行了实验，结果显示，使用注意力吸收器的LLMs同时具备了稳定的空间复杂度和流畅的表达能力。这表明，使用注意力吸收器，我们的模型可以保持流畅的表达，直到我们的数据耗尽。

注意力吸收器让我们的AI更接近无穷无尽的流畅表达。尽管这仍然是一个新的领域，但我们希望这种方法能够推动AI技术的前进，为我们的日常生活带来更多的便利。

在未来，我们期待看到更多的研究者和开发者参与到这个领域中来，共同推动AI技术的发展，让我们的AI可以更好地理解我们，更好地服务我们。

2023 年 11 月 2 日
解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

欢迎来到这个探索大型语言模型（LLMs）无尽流畅性的神奇旅程。在这篇文章中，我们将研究一种新的技术策略，即”注意力汇聚”，它在Hugging Face的博客中被详细介绍。这种策略对于改进LLMs，如所有Llama、Mistral、MPT、Falcon和GPT-NeoX（Pythia）模型的性能有着重要的影响。现在，让我们一起揭开这个神秘现象的面纱！

LLMs的局限性：VRAM和流畅性问题

首先，我们需要理解LLMs在现实应用中面临的挑战。其中，最重要的两个问题是VRAM使用和流畅性的丧失。在聊天助手场景中，这意味着设备的VRAM限制将限制用户连续提问的能力。同时，所有至今为止训练过的LLMs在输入过长时都会遇到流畅性的丧失问题，这会导致模型生成的语言失去连贯性。

窗口注意力：一种尝试解决VRAM问题的方法

为了解决VRAM使用问题，我们可以尝试限制输入给LLMs的令牌数量，这就是”窗口注意力”的概念。然而，实验结果显示，这种方法并不能有效地解决问题。一旦生成的令牌数超过窗口大小，模型的复杂度会立即上升。

注意力汇聚：解决流畅性问题的新策略

好在，我们发现了一个新的解决策略：注意力汇聚。研究人员发现，在应用窗口注意力的过程中，LLMs为生成下一个令牌分配了大量的注意力分数给前几个令牌，即便这些令牌在语义上并不重要。因此，当第一个令牌从窗口中移除时，模型无法将注意力分数装载到该令牌上，导致模型“崩溃”并丧失流畅性。

为了解决这个问题，研究人员提出了一种改良的窗口注意力方法，它始终保留序列中的初始4个令牌，即注意力汇聚令牌。

注意力汇聚的实践效果

实验数据显示，使用注意力汇聚的LLMs在空间复杂性和困惑度上都表现出了稳定性。此外，按照这种方式，可以无限生成文本而不会出现模型流畅性的丧失。

结论

总的来说，注意力汇聚为我们提供了一种新的解决LLMs问题的方法：通过保留注意力汇聚令牌，我们可以避免模型在生成过程中失去流畅性，并保持恒定的VRAM使用。这种方法对于改进聊天助手、虚拟助手等基于LLMs的应用具有重要的实践价值。

2023 年 11 月 2 日
【深度揭秘】StreamingLLM：大型语言模型的“无限长”生成能力

在今天的科技热点之旅中，我们要探讨的是一个源自语言模型领域的新词：StreamingLLM。这个强大的技术，旨在打破大型语言模型(LLM)在推理时只能记住有限上下文的限制。音乐会有无尽的旋律，那么，人工智能的语言模型是否也能拥有无尽的生成能力呢？让我们一起揭秘这个问题的答案。

1. LLM的限制：有限的上下文记忆

先让我们理解一下问题的背景。在现行的语言模型，如LLama2中，模型只能处理4K长度的上下文。这个限制导致了两个问题：一是模型无法记住超过最近4K上文的内容，二是当生成文本达到4K时，模型会自动停止。这在某种程度上限制了我们对AI对话助手的期望，我们希望它能不受输出长度的限制，并记住历史的对话。

2. StreamingLLM的提出：无限序列长度的输入和输出

然后，MIT，Meta AI，CMU的研究团队提出了一个全新的解决方案：StreamingLLM。他们声称，这种方法可以使得大型语言模型在无需任何微调的情况下，推广到无限序列长度的输入和输出。请注意，这个方法并没有增加LLM的对上文的记忆，只是让它输入输出无限长。这样的好处显而易见，例如，当你需要对话机器人生成一个很长的回答时，你不再需要输入“继续”。

3. StreamingLLM的核心技术：Attention Sink

那么，StreamingLLM是如何实现这个目标的呢？关键在于MIT韩松老师实验室的主要作者Guangxuan Xiao提出的一个名叫“Attention Sink”的技术。这个技术在处理Transformer推理时，解决了一些非常有趣的问题。他们的研究成果在学界得到了广泛的关注，并已经在github上开源。

4. StreamingLLM的解决挑战：处理无限输入的LLM

StreamingLLM的目标是在不牺牲效率和性能的情况下，部署一个能处理无限输入的LLM。这样的模型可以不受长度限制不停地输出，具体效果可以参考他们的主页视频。然而，这并非易事，面临着诸多挑战。

一个挑战是在解码阶段，由于KV Cache的存在，会导致内存使用或延迟增加，而内存上线和推理服务SLA的存在，又使得KV Cache不能无限大，这构成了性能瓶颈。另一个挑战是现有模型的外推能力有限，当序列长度超过预训练时设定的注意力窗口大小时，它们的表现会下降，这是模型能力的瓶颈。

在面对这些挑战时，StreamingLLM通过使用近似注意力的方法，放松了对全部输入记忆的限制，仍然只记住最近的上下文，但实现了处理无限输入并获得无限输出的效果。

5. StreamingLLM的突破：Attention Sink

StreamingLLM的另一项重大突破是他们提出了“attention sink”概念，这被认为是解决以上挑战的关键。简单来说，”attention sink”是一个技术，它将注意力集中在最近的上下文中，而非全部的上下文。这种方法大大节省了内存和计算资源，克服了KV Cache的限制，而且它使得模型可以处理无限长度的输入输出，这无疑是对现有模型的重大突破。

6. StreamingLLM的实践应用

StreamingLLM的实际应用非常广泛。比如在AI对话助手中，它可以生成无限长的对话，而且还能记住历史的对话。这对于长对话、长篇文章的生成，无疑提供了更好的用户体验。此外，StreamingLLM还可以应用于其他领域，比如在线翻译、自动问答、编程助手等等，无所不能。

7. StreamingLLM的未来

StreamingLLM的未来充满了可能。就像我们在音乐中能创作出无尽的旋律一样，StreamingLLM为我们的语言模型赋予了无尽的生成能力。我们期待，随着技术的进步，我们能解决更多的挑战，进一步提升模型的性能，让AI更好地服务于人类。

结语：

StreamingLLM技术让我们看到了大型语言模型的无限可能。它打破了有限上下文的限制，开创了无限长的生成能力。这无疑为AI领域带来了新的机遇，也带来了新的挑战。我们期待更多的研究者和开发者加入到这个领域中来，共同推动人工智能的进步。

感谢您的阅读，希望我们的探讨对您有所帮助。在下一次的科技热点之旅中，我们会带来更多有趣的话题。再见！

2023 年 11 月 2 日
ChatDev:改变编程的虚拟软件公司

作为程序员,您是否曾幻想整个软件开发过程能够自动完成,不再需要手动编码、测试、排错?现在,有一个开源项目正在实现这一梦想,那就是ChatDev。

ChatDev是一个虚拟的软件公司,由不同角色的智能语言模型组成,包括CEO、产品经理、技术总监、程序员、测试员等。这些智能角色形成一个多角色组织结构,共同推动软件项目的执行。他们可以通过文字交流来协作设计、编写、测试软件。

这样的设置使ChatDev具有以下优势:

1、操作简单,用户只需文字描述想要开发的软件即可,无需了解编程;

2、高度可自定义,可以自定义公司内部流程、角色等;

3、可扩展性强,可以轻松扩展新的角色和功能;

4、安全性高,基于Docker可以安全运行;

5、支持多种系统,包括Linux、MacOS、Windows。

使用ChatDev非常简单。先配置好OpenAI的API密钥,然后通过简单的命令就可以启动一个软件项目开发。在交互过程中,ChatDev会在后台自动编写代码、进行测试、生成文档等,最终交付一个可直接运行的软件包。

ChatDev还在不断完善中,已支持代码版本控制、人机交互等功能。用户甚至可以加入到这个虚拟团队中,与ChatDev的智能角色互动、提出建议。

ChatDev是一个开源项目,欢迎共建。如果您对自动编程、人工智能应用等感兴趣,欢迎加入ChatDev团队!通过自定义ChatDev,我们可以探索人工智能在软件工程等场景的应用潜力,共同开创编程方式的新未来。

项目地址:https://github.com/OpenBMB/ChatDev

2023 年 11 月 1 日
XAgent:一个开源的自主智能体,自动解决你的各种问题
作为AI爱好者,您是否也曾幻想拥有一个像“贾维”那样的AI助手,能自动完成各种日常任务和解决问题?现在,这个梦想即将成为现实!

XAgent正是这样一个开源的自主智能体,它可以根据指令自动解决各种任务,无需人类参与其中。只需简单的文字描述,它就能够理解需求,制定计划,使用工具自主完成任务。无论是写报告、分析数据,还是帮助编程,它都能胜任。

与此同时,XAgent具备其他AI助手所不具备的独特优势:
1. 它是自主的,不需要人类监督就能自主地完成任务;
2. 它运行在安全的Docker容器中,不会影响到您的主机环境;
3. 它的能力可以轻松扩展,可以添加各种新工具来增强它的能力;
4. 它拥有友好的图形界面,使用简单方便;
5. 最重要的是,它可以与人类紧密配合,在遇到困难时主动请求帮助。
XAgent由调度器、规划器和行动者3个部分组成。调度器负责任务分配,规划器负责生成计划,行动者则利用各种工具来完成任务。它内置了文件编辑器、Python笔记本、网页浏览器等多种功能,还可以轻松接入各种API,获取更强大的能力。

想让XAgent帮你自动完成任务?首先需要通过Docker安装并启动它的工具服务器。这可以为XAgent提供一个安全的运行环境。然后配置XAgent的key等参数,就可以开始使用它了。无论是通过命令行还是可视化界面,都可以轻松与XAgent交互。

XAgent当前还处于早期阶段,各种能力有待进一步提升。但作为一个开源项目,它的潜力无限。如果您对前沿AI技术充满兴趣、渴望参与构建人工智能的未来,欢迎加入XAgent的开发团队,我们一起创造真正的自主AI!

XAgent GitHub:https://github.com/OpenBMB/XAgent
2023 年 11 月 1 日
AI代理：探索新领域的火花

亲爱的读者，欢迎来到这个探索人工智能 (AI) 的奇妙世界！今天，我们将一起揭开AI代理（AI Agent）这个热门话题的神秘面纱。你可能在想，为什么AI代理如此火爆？让我们一同探索吧。

首先，我们来看看OpenAI联合创始人Andrej Karpathy的观点。他在一次开发者活动上分享了自己对AI代理的看法。他认为，现在正是回归神经科学，从中寻求灵感的时刻，就像在深度学习早期发生的那样。他还提到，普通人、创业者和极客在构建AI代理方面可能比OpenAI这样的大公司更有优势。

什么是AI代理？

在我们深入了解AI代理的火爆原因之前，让我们先理解一下AI代理到底是什么。AI代理是一个自主的实体，它可以使用AI技术来完成各种任务。在过去的几年里，神经网络和深度学习的发展使得AI代理的行为变得越来越像人类。

AI代理的优势

那么，为什么AI代理如此受欢迎？这主要归功于它们的自主性、安全性和可扩展性。AI代理可以独立完成各种任务，而不需要人类的干预。此外，它们的行为都被限制在一个安全的环境中，这样可以保护主机环境免受影响。而且，你可以轻松地向AI代理添加新的功能，以增强它们的能力。

AI代理的示例

现在，让我们来看看一些AI代理的实例。首先是Microsoft推出的AutoGen。AutoGen是一个框架，它支持使用多个代理开发大型语言模型（LLM）应用程序。这些代理可以相互交谈以解决任务。AutoGen代理是可定制的、可交谈的，并且无缝地允许人工参与。

另一个例子是XAgent。XAgent是一个开源的基于大型语言模型的自主智能体，可以自动解决各种任务。它被设计为一个通用的智能体，可以应用于各种任务。

AI代理的未来

随着技术的发展，AI代理的能力和应用场景将会进一步扩大。与此同时，我们也需要意识到，虽然AI代理带来了许多便利，但也有可能带来一些挑战，比如隐私问题、道德问题等。因此，我们在享受AI代理带来的便利的同时，也要时刻关注这些可能的问题。

总的来说，AI代理正在引领一场新的技术革命。无论你是一个科技爱好者，还是一个寻求创新的创业者，或者是一个对AI有深入研究的专家，AI代理都将给你带来无尽的可能和机会。让我们一起期待AI代理的未来吧！

那就是今天的分享，希望你从中获得了一些有价值的信息。如果你对AI代理感兴趣，欢迎继续关注我们的文章。我们将会分享更多有关AI代理的最新信息和深入分析。

2023 年 11 月 1 日
The Alignment Handbook：让语言模型与人类和AI偏好保持一致的强大技巧
随着ChatGPT和Llama系列语言模型的发布，人们对于使用强化学习和人类反馈对语言模型进行训练以满足人类偏好的技术有了更深入的了解。然而，在训练语言模型以符合一组偏好时，如何训练模型、收集数据和衡量性能等方面的资源和指导相对较少。本文将介绍The Alignment Handbook，它提供了一系列强大的训练技巧，涵盖了整个训练过程，让您能够更好地训练语言模型以满足人类和AI的偏好。

The Alignment Handbook简介
The Alignment Handbook是一个旨在帮助开发人员训练语言模型以符合人类和AI偏好的指南。过去的一年中，ChatGPT和Llama等语言模型的发布引起了轰动，使得训练强大的对话模型变得更加容易。这也带来了大量的数据集和模型，主要集中在通过监督微调来教导语言模型遵循指令。然而，通过InstructGPT和Llama2的研究，我们知道通过加入人类（或AI）的偏好，可以显著提高模型的有用性和安全性。然而，在训练过程中，如何训练这些模型、收集数据和衡量性能等方面，目前公开的资源比较有限。The Alignment Handbook的目标是填补这一空白，为社区提供一系列强大的训练技巧，覆盖整个训练流程。

初版的The Alignment Handbook将重点介绍以下技术：
- 监督微调：教导语言模型遵循指令，并提供如何收集和整理自己的训练数据集的提示。
- 奖励建模：教导语言模型根据人类或AI的偏好区分模型回复。
- 拒绝抽样：一种简单但强大的技术，用于提升监督微调模型的性能。
- 直接偏好优化（DPO）：一种强大且有前途的替代方法。
快速入门
要运行本项目中的代码，请首先使用Conda创建一个Python虚拟环境：
conda create -n handbook python=3.10 && conda activate handbook
接下来，安装PyTorch v2.1.0，请参考PyTorch安装页面进行安装。
一旦安装了PyTorch，您可以安装剩余的依赖包：
pip install .
然后，通过以下方式登录您的Hugging Face账户：
huggingface-cli login
最后，安装Git LFS，以便您可以将模型推送到Hugging Face Hub：
sudo apt-get install git-lfs

引用
如果您发现本项目的内容对您的工作有帮助，请按照以下方式进行引用：
@misc{alignment_handbook2023,
author = {Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Alexander M. Rush and Thomas Wolf},
title = {The Alignment Handbook},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/huggingface/alignment-handbook}}
}

结语
The Alignment Handbook旨在帮助社区更好地训练语言模型以符合人类和AI的偏好。通过提供强大的训练技巧，本指南将带领开发人员深入了解如何调整语言模型以满足人类和AI的偏好。本文介绍了The Alignment Handbook的背景和目标，以及其中涵盖的技术和资源。通过这些内容，我们希望能够帮助开发人员更好地训练语言模型，以满足用户的需求和偏好。无论您是初学者还是有经验的专业人士，The Alignment Handbook都将为您提供有价值的指导和实用的技巧，让您能够更好地应用语言模型于实际应用中。期待与您一起探索The Alignment Handbook带来的训练技巧和实践经验！
2023 年 11 月 1 日
Prodia Labs：让AI集成变得轻松

Prodia Labs正在重新定义AI在各种软件应用中的集成方式。我们的使命是使AI普惠于所有人。为此，我们打造了一款快速且用户友好的API，专注于图像生成。无论您是开发人员还是研究者，Prodia Labs都可以为您提供所需的AI集成解决方案。在本文中，我们将介绍Prodia Labs的使命、提供的API功能和联系方式，让您深入了解我们的技术和服务。

Prodia Labs简介
Prodia Labs正在重新定义AI在各种软件应用中的集成方式。我们的使命是使AI普惠于所有人。为了实现这一目标，我们开发了一款快速且易于使用的API，专注于图像生成。通过我们的API，开发人员可以轻松将AI模型集成到自己的应用中，无需担心GPU基础设施的管理问题。

Prodia Labs提供的API
Prodia Labs提供了简单高效的API，让开发人员能够轻松将自己的AI模型与Prodia Labs的技术相结合，实现各种应用场景的图像生成。无论您是想让机器生成图像，还是通过图像实现其他功能，Prodia Labs的API都能满足您的需求。我们的API旨在让开发人员能够专注于应用的业务逻辑，而无需担心管理GPU基础设施的复杂性。

Prodia Labs的使命
Prodia Labs的使命是使AI集成变得轻松。我们希望通过提供高效且易于使用的API，帮助开发人员将他们的AI模型应用到现实世界的各种应用中。我们相信，通过我们的技术和服务，AI将能够更广泛地服务于人类的生活和工作，为各行各业带来更多创新和便利。

联系Prodia Labs
如果您对Prodia Labs的API有任何疑问或需要帮助，请不要犹豫：

查阅我们的API文档，了解更多细节；
通过我们的网站prodia.com与我们联系；
加入我们的Discord社区，与其他开发者和研究者交流。
无论您是初学者还是经验丰富的专业人士，Prodia Labs都愿意与您一起探索AI集成的世界，为您的项目和应用提供支持和帮助。

结语：
Prodia Labs正在通过提供高效且易于使用的API，重新定义AI在各种软件应用中的集成方式。我们的目标是使AI普惠于所有人。通过本文的介绍，您可以了解到Prodia Labs的使命、提供的API功能以及如何联系我们。无论您是开发人员还是研究者，Prodia Labs都可以为您提供所需的AI集成解决方案。期待与您一起构建创新和便利的AI应用！

2023 年 11 月 1 日
快速入门指南：使用timm进行模型训练的开端
标题：快速入门指南：使用timm进行模型训练的开端

导读：
本文旨在帮助开发人员快速了解如何将timm集成到模型训练流程中。首先，您需要安装timm。接下来，我们将通过示例代码演示如何加载预训练模型、列出具有预训练权重的模型、微调预训练模型、以及如何使用预训练模型进行特征提取、图像增强和推理。让我们一起开始这个令人兴奋的旅程吧！

正文：
快速入门
本快速入门指南旨在帮助开发人员快速了解如何将timm集成到他们的模型训练流程中。在开始之前，您需要先安装timm。有关安装的详细信息，请参阅安装指南。

加载预训练模型
通过create_model()函数可以加载预训练模型。下面的示例展示了如何加载预训练的mobilenetv3_large_100模型。
```
import timm

model = timm.create_model('mobilenetv3_large_100', pretrained=True)
model.eval()
```
需要注意的是，默认情况下返回的PyTorch模型处于训练模式，如果要进行推理，需要调用.eval()方法将其设置为评估模式。

列出具有预训练权重的模型
要列出timm中打包的具有预训练权重的模型，可以使用list_models()函数。如果指定pretrained=True，该函数将只返回具有预训练权重的模型名称。
```
import timm
from pprint import pprint

model_names = timm.list_models(pretrained=True)
pprint(model_names)
```
您还可以使用特定模式来列出名称中包含特定字符串的模型。

微调预训练模型
要微调任何预训练模型，只需更改分类器（即最后一层）即可。
```
model = timm.create_model('mobilenetv3_large_100', pretrained=True, num_classes=num_finetune_classes)
```
如果要在自己的数据集上进行微调，请编写一个PyTorch训练循环或调整timm的训练脚本以使用自己的数据集。

使用预训练模型进行特征提取
在不修改网络结构的情况下，可以使用model.forward_features(input)来替代通常的model(input)方法，对任何模型进行特征提取。这将跳过头部分类器和全局池化操作。有关更详细的使用timm进行特征提取的指南，请参阅特征提取部分。

图像增强
为了将图像转换为模型接受的有效输入，可以使用timm.data.create_transform()函数，并提供模型期望的输入尺寸。这将返回一个通用的变换对象，其中包含了一些合理的默认设置。
```
timm.data.create_transform((3, 224, 224))
```
预训练模型在训练时应用了特定的数据转换。如果您在图像上使用错误的转换，模型将无法理解所见的图像！要了解给定预训练模型使用了哪些转换，可以查看其预训练配置。
```
model.pretrained_cfg
```
您可以使用timm.data.resolve_data_config()函数来解析与数据相关的配置。
```
data_cfg = timm.data.resolve_data_config(model.pretrained_cfg)
transform = timm.data.create_transform(**data_cfg)
```
使用预训练模型进行推理
下面，我们将结合前面的内容，使用预训练模型进行推理。首先，我们需要一张图片作为输入。我们从网络上加载一张叶子标题：快速入门指南：timm模型训练的开端

导读：
本文将带您快速了解如何将timm集成到模型训练流程中。从安装timm开始，到加载预训练模型、列出可用的预训练模型、微调模型、使用模型进行特征提取、图像增强和推理等，我们将逐步介绍这些内容。让我们开始这个令人兴奋的旅程吧！

正文：
快速入门
本快速入门指南旨在帮助开发人员快速了解如何将timm集成到模型训练流程中。在开始之前，您需要先安装timm，具体安装方法请参考官方的安装指南。

加载预训练模型
要加载预训练模型，可以使用create_model()函数。以下示例展示了如何加载预训练的mobilenetv3_large_100模型。
```
import timm

model = timm.create_model('mobilenetv3_large_100', pretrained=True)
model.eval()
```
需要注意的是，默认情况下返回的PyTorch模型处于训练模式，如果要进行推理，需要调用.eval()方法将其设置为评估模式。

列出具有预训练权重的模型
要列出timm中已打包的具有预训练权重的模型，可以使用list_models()函数。如果指定pretrained=True，该函数将只返回具有预训练权重的模型名称。
```
import timm
from pprint import pprint

model_names = timm.list_models(pretrained=True)
pprint(model_names)
```
您还可以使用特定模式来列出名称中包含特定字符串的模型。

微调预训练模型
要微调任何预训练模型，只需更改分类器（即最后一层）即可。
```
model = timm.create_model('mobilenetv3_large_100', pretrained=True, num_classes=num_finetune_classes)
```
如果要在自己的数据集上进行微调，请编写一个PyTorch训练循环或调整timm的训练脚本以使用自己的数据集。

使用预训练模型进行特征提取
在不修改网络结构的情况下，可以使用model.forward_features(input)来替代通常的model(input)方法，对任何模型进行特征提取。这将跳过头部分类器和全局池化操作。有关更详细的使用timm进行特征提取的指南，请参考官方文档中的特征提取部分。

图像增强
要将图像转换为模型可接受的有效输入，可以使用timm.data.create_transform()函数，并提供模型所期望的输入尺寸。这将返回一个通用的转换对象，其中包含了一些合理的默认设置。
```
timm.data.create_transform((3, 224, 224))
```
需要注意的是，预训练模型在训练时应用了特定的数据转换。如果您在图像上使用错误的转换，模型将无法理解所见的图像！要了解给定预训练模型使用了哪些转换，可以查看其预训练配置。
```
model.pretrained_cfg
```
您可以使用timm.data.resolve_data_config()函数来解析与数据相关的配置。
```
data_cfg = timm.data.resolve_data_config(model.pretrained_cfg)
transform = timm.data.create_transform(**data_cfg)
```
使用预训练模型进行推理
下面，我们将结合前面的内容，使用预训练模型进行推理。首先，我们需要准备一张图片作为输入。我们从网络上加载了一张叶子的图片。
```
import requests
from PIL import Image
from io import BytesIO

url = 'https://datasets-server.huggingface.co/assets/imagenet-1k/--/default/test/12/image/image.jpg'
image = Image.open(requests.get(url, stream=True).raw)
image
```
接下来，我们再次创建模型和转换。这次，我们确保将模型设置为评估模式。
```
model = timm.create_model('mobilenetv3_large_100', pretrained=True).eval()
transform = timm.data.create_transform(
    **timm.data.resolve_data_config(model.pretrained_cfg)
)
```
我们可以将图片通过转换函数进行处理，以便与模型进行推理。
```
image_tensor = transform(image)
image_tensor.shape
```
现在，我们可以将处理后的图片传递给模型进行预测。这里我们使用unsqueeze(0)将其添加一个批次维度，因为模型需要一个批次的输入。
```
output = model(image_tensor.unsqueeze(0))
output.shape
```
为了得到预测的概率，我们对输出应用softmax函数。这会得到一个形状为(num_classes,)的张量。
```
probabilities = torch.nn.functional.softmax(output[0], dim=0)
probabilities.shape
```
接下来，我们使用torch.topk找到前5个预测类别的索引和概率值。
```
values, indices = torch.topk(probabilities, 5)
indices
```
通过检查对应于最高概率的索引值，我们可以查看模型的预测结果。
```
IMAGENET_1k_URL = 'https://storage.googleapis.com/bit_models/ilsvrc2012_wordnet_lemmas.txt'
IMAGENET_1k_LABELS = requests.get(IMAGENET_1k_URL).text.strip().split('\n')
[{'label': IMAGENET_1k_LABELS[idx], 'value': val.item()} for val, idx in zip(values, indices)]
```
至此，我们完成了使用预训练模型进行推理的过程。我们加载了一张图片，将其通过转换函数处理后输入模型，并得到了模型的预测结果。通过这个示例，我们展示了如何使用timm进行快速入门。

结语：
本文通过一个快速入门的示例，介绍了如何使用timm进行模型训练。我们展示了加载预训练模型、列出具有预训练权重的模型、微调预训练模型、使用预训练模型进行特征提取、图像增强和推理的方法。希望本文对您了解和使用timm有所帮助，让您能够更轻松地进行模型训练和推理！
2023 年 11 月 1 日
ChatGLM3：大模型工具调用实现原理揭秘

ChatGLM3终于迎来了与ChatGPT相似的工具调用能力。通过研究其源码和样本数据，我们可以了解到让大型语言模型学会使用工具的方法原理。本文将深入探讨ChatGLM3的工具调用实现原理，带您揭开这个令人兴奋的功能背后的奥秘。

ChatGLM3是一种大型语言模型，具备了与ChatGPT相似的工具调用功能。通过这一功能，模型可以调用特定的工具来执行特定的任务。在本文中，我们将深入研究ChatGLM3的工具调用实现原理，揭示其背后的工作原理。

首先，让我们来看一个官方例子，以帮助我们理解工具调用的过程。在这个例子中，我们准备了两个工具调用的描述信息：追踪指定股票的实时价格和将文本转换为语音。这些工具都具有特定的参数要求，比如需要提供股票代码或要转换的文本等。

在进行工具调用之前，我们需要构建一个系统提示(System Prompt)，告诉模型我们可以使用哪些工具。然后，我们将用户的查询传递给模型，模型将根据上下文和系统提示中提供的工具信息，确定需要调用的工具和相应的参数。模型的输出将告诉我们应该使用哪个工具以及传递给工具的参数。

在实际的工具调用中，我们需要实现调用工具的逻辑。例如，在追踪股票价格的例子中，我们可以定义一个名为”track”的工具，并提供股票代码作为参数。模型将根据返回的结果生成回复。对于复杂的问题，模型可能需要进行多次工具调用。

在ChatGLM3中，工具调用的原理是通过特殊处理模型输出来实现的。输出结果中的字典对象表示模型需要调用特定的工具，并传递相应的参数。这样的结果是由一个特殊的处理过程生成的，确保模型可以理解和使用。

在工具调用的样本数据中，我们可以看到模型预测的输出中包含了工具调用的相关信息，如函数名称和代码。这些信息被解析和处理，最终生成用于调用工具的参数。这种设计的目的是将模型的预测结果转化为可执行的工具调用。

在ChatGLM3中，工具调用只支持通过chat方法进行，不支持stream_chat方法。这是因为在stream_chat方法中，无法对模型输出进行相应的处理和转换。

通过深入研究ChatGLM3的源码和样本数据，我们揭示了其工具调用的实现原理。我们了解到，工具调用是通过特殊处理模型输出和相关信息来实现的。这种功能为模型的应用提供了更大的灵活性和扩展性，使模型可以执行更多的任务。

ChatGLM3的工具调用功能为大型语言模型带来了更多的实用性和功能扩展性。通过深入了解其实现原理，我们更好地理解了模型如何使用工具，并可以在实践中灵活应用。期待着ChatGLM3在未来的发展中带来更多令人惊喜的功能和应用！

2023 年 11 月 1 日

博客

一、 LLMs & RLHF：AI领域的新星

二、 什么是TRL？

三、 大规模训练的挑战

四、 8位矩阵乘法

五、 低秩适应和PEFT

六、 什么是PEFT？

七、 20B参数模型的低秩适配器微调

ControlNet简介

ControlNet的工作原理

体验ControlNet

结语

并行循环：cython.parallel.prange()

并行区域：cython.parallel.parallel()

获取线程ID：cython.parallel.threadid()

编译

轻松实现并行循环：cython.parallel.prange()

并行区域：cython.parallel.parallel()

获取线程ID：cython.parallel.threadid()

Zig的主要特点

简洁易懂

性能与安全并重

兼容C语言

Zig的优势

Zig的设计理念

Zig的编译时间 (Comptime)

Zig的可维护性

Zig社区

Zig软件基金会

Zig的赞助者

项目简介：php-wasm

php-wasm 的特色与功能

如何使用 php-wasm？

结语

3D高斯投影到底是什么？

3D高斯投影的工作原理

3D高斯投影的重要性

3D高斯投影和图形的未来

结语

一、DDPO与微调扩散模型的优势

二、DDPO算法简述

三、DDPO与RLHF：增强审美性的混合

四、使用DDPO训练稳定扩散模型

五、总结

为何我们需要“注意力吸收器”？

窗口注意力：一种尝试解决方法

注意力吸收器：新的解决思路

结论：注意力吸收器的威力

LLMs的局限性：VRAM和流畅性问题

窗口注意力：一种尝试解决VRAM问题的方法

注意力汇聚：解决流畅性问题的新策略

注意力汇聚的实践效果

结论

1. LLM的限制：有限的上下文记忆

2. StreamingLLM的提出：无限序列长度的输入和输出

3. StreamingLLM的核心技术：Attention Sink

4. StreamingLLM的解决挑战：处理无限输入的LLM

5. StreamingLLM的突破：Attention Sink

6. StreamingLLM的实践应用

7. StreamingLLM的未来

什么是AI代理？

AI代理的优势

AI代理的示例

AI代理的未来

二、什么是TRL？

三、大规模训练的挑战

五、低秩适应和PEFT

六、什么是PEFT？