月度归档： 2023 年 11 月

FlashFFTConv：使用张量核心进行长序列高效卷积
导语：本文将详细解析FlashFFTConv，一种使用张量核心进行长序列高效卷积的算法。我们将介绍FlashFFTConv的原理、优势以及应用领域。

1. 引言

卷积模型在处理长序列任务时展现出了出色的推理能力，例如长文本建模、音频分析和DNA建模等。然而，与经过优化的Transformer相比，卷积模型在计算时间上仍存在瓶颈。其中一个主要瓶颈是快速傅里叶变换（FFT）算法，该算法可以在O(NlogN)的时间复杂度内计算长卷积，但硬件利用率较低。为了解决这个问题，我们提出了FlashFFTConv算法，一种在GPU上高效计算FFT卷积的新算法[2]。

2. FlashFFTConv算法原理

FlashFFTConv算法通过Monarch分解将FFT卷积的步骤融合在一起，并利用现代GPU上的张量核心进行计算。该算法的主要思想是将FFT分解为矩阵乘法操作，并在长序列情况下实现步骤的融合。具体而言，FlashFFTConv算法通过以下两个方面解决了FFT卷积的瓶颈[2]：
- 使用Monarch分解将FFT分解为矩阵乘法操作，从而可以利用张量核心进行计算。
- 将多个FFT卷积步骤融合在一起，即使对于长序列也能高效计算。
3. FlashFFTConv的优势

FlashFFTConv算法相较于传统的FFT算法具有以下优势[2]：
- 高效利用现代GPU上的张量核心，加速卷积计算。
- 在序列长度为2K时，FlashFFTConv开始与FlashAttention-v2性能相匹配，并在更长的序列上表现出色，最高可达到62%的MFU。
- 相较于最优化的Transformer，FlashFFTConv在长序列卷积任务上具有更高的计算效率。
4. FlashFFTConv的应用领域

FlashFFTConv算法在以下领域具有广泛的应用前景[2]：
- 长文本建模：FlashFFTConv可以用于处理长文本序列，例如自然语言处理任务。
- 音频分析：FlashFFTConv可以用于处理音频序列，例如语音识别和音乐生成等任务。
- DNA建模：FlashFFTConv可以用于处理DNA序列，例如基因组学研究和生物信息学分析等任务。
5. 结论

FlashFFTConv是一种高效的卷积算法，通过利用张量核心和Monarch分解，可以加速长序列的卷积计算。该算法在长序列任务中具有广泛的应用前景，并在性能上超越了传统的FFT算法和优化的Transformer。我们期待看到FlashFFTConv在各个领域的进一步应用和发展。

参考文献
1. GitHub – HazyResearch/flash-fft-conv: FlashFFTConv
2. FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores · Hazy Research
Learn more:
2023 年 11 月 23 日
简单长卷积用于序列建模的详细解析
在序列建模中，我们一直在研究如何获得良好的性能，并开发了新的系统技术和深度学习架构。今天，我们将介绍一个简单的基准线方法，它可以取得出人意料的好效果：只需使用与输入序列相同大小的长卷积！事实证明，我们只需要简单的正则化，卷积就可以与复杂的序列模型（如S4）在Long Range Arena和文本建模等基准测试中相媲美。[1]

长卷积的正则化：
我们首先提出了一个问题：如果将SSMs（State Space Models）替换为长卷积，会发生什么？代码非常简单，我们可以使用FFT卷积以O(NlogN)的时间复杂度计算长卷积（而不是PyTorch的Conv1D中的O(N^2)）。然而，如果在Long Range Arena等基准测试上尝试这种方法，你会发现性能落后于SSMs。[1]

为什么会这样呢？如果你可视化学习到的卷积核，你会发现一个潜在的答案：长卷积核非常不平滑和嘈杂！为了解决这个问题，我们发现只需应用一个简单的正则化操作——Squash操作——到卷积核权重上即可。这个操作非常简单，只需要一个超参数λ。如果在训练过程中应用这个操作，你会得到在时间域上更稀疏、在频率域上更平滑的卷积核。在Long Range Arena基准测试上，这个小改变就足以与SSMs的性能相匹配。[1]

长卷积的应用：
我们进一步评估了长卷积在图像分类、文本建模和脑fMRI分析等领域的性能，并发现长卷积在所有这些领域都表现出色。特别是在文本建模中，我们将H3层中的SSMs替换为卷积，发现这个新的H3-Conv模型在PILE数据集上的性能与H3相当，并且优于Transformers。[1]

未来展望：
我们的论文中还包括更多关于长卷积在其他领域的评估，例如图像分类和脑fMRI分析等有趣的应用。我们还开发了一些新的系统优化方法，以提高长卷积的运行时性能。此外，我们还发现了长卷积与Monarch矩阵理论之间的有趣联系，这使得我们可以在卷积中插入额外的参数，从而获得更好的质量。[1]

结论：
简单的长卷积在序列建模中表现出色，并且只需添加简单的正则化操作就可以与复杂的序列模型相媲美。这种方法在多个领域都取得了良好的结果，并且具有较高的运行时性能。我们对这些方向非常感兴趣，并且希望能够在开放的环境中进一步发展这些方法。[1]

Learn more:
2023 年 11 月 23 日
RWKV-5详细解析：理解并行训练的RNN网络
RWKV-5是一种可以并行训练的RNN网络，相较于基于Transformer的模型，它具有更低的自回归解码复杂度。本文将从多个角度详细解析RWKV-5模型，帮助读者更好地理解该模型的原理和应用

一、RWKV-5模型的背景和意义
1.1 Transformer模型的挑战 [1]
- Transformer模型是一种革命性的神经网络架构，但在处理长序列时面临内存和计算复杂度的问题。
- 复杂度与序列长度呈二次关系，限制了其在大语言模型中的应用。
1.2 RWKV-5模型的优势 [1]
- RWKV-5利用了循环神经网络的思想，重新构造了注意力机制，使得复杂度与序列长度之间呈线性关系。
- 可以并行训练，提高了训练效率。
- 更适应大语言模型的自回归解码推理。
二、RWKV-5模型的核心思想
2.1 注意力机制和循环神经网络的核心思想 [1]
- 注意力机制：通过全局建模和并行计算，提高模型对长距离依赖关系的建模能力。
- 循环神经网络：将时刻t的输出作为时刻t+1的输入，适用于自回归解码推理。
2.2 RWKV-5模型中的AFT注意力机制 [1]
- 将点积转化为张量积，带来了并行性。
- 张量积建模相互作用，提高了模型的表达能力。
三、RWKV-5模型的架构和设计
3.1 RWKV-5的整体架构 [1]
- 包括Time-Mix模块和Channel-Mix模块。
- Time-Mix模块将循环神经网络思想融入AFT的注意力机制中。
- Channel-Mix模块用于处理通道之间的信息交互。
3.2 RWKV-5的位置编码设计 [1]
- 位置编码用于表示输入序列中单词的位置信息。
- RWKV-5采用了一种特殊的位置编码设计，具体细节可参考原论文。
四、RWKV-5模型的应用领域
- RWKV-5模型在大语言模型的自回归解码推理中具有广泛的应用前景。
- 可以用于文本生成、机器翻译、语音识别等任务。
结语：
通过对RWKV-5模型的详细解析，我们了解到它是一种可以并行训练的RNN网络，相较于基于Transformer的模型具有更低的自回归解码复杂度。RWKV-5模型的核心思想是将循环神经网络和AFT注意力机制相结合，通过张量积建模相互作用，提高了模型的表达能力。该模型在大语言模型的自回归解码推理中具有广泛的应用前景。

参考文献：
[1] 小白视角解读RWKV论文模型 – 知乎
[2] RWKV的RNN CNN二象性 – 知乎

Learn more:
2023 年 11 月 23 日
FIDO2详细解析
FIDO2是FIDO联盟最新的规范集，它使用户能够在移动和桌面环境中轻松地对在线服务进行身份验证。FIDO2规范由万维网联盟（W3C）的Web身份验证（WebAuthn）规范和FIDO联盟的客户端到身份验证器协议（CTAP）组成[1]。

FIDO2的目标是让世界超越密码，提供一种更安全、更便捷的身份验证方法。它的实现依赖于以下几个关键组件：
1. WebAuthn：WebAuthn是FIDO2的一部分，它是一种使用JavaScript提供的API，用于与身份验证设备进行交互。Web服务开发人员可以通过实施WebAuthn标准，使浏览器能够与身份验证设备进行通信[2]。
2. CTAP：CTAP是客户端到身份验证器协议，它定义了浏览器和身份验证器之间的通信协议。CTAP允许浏览器向身份验证器发送请求，并接收来自身份验证器的响应。这样，浏览器可以与用户的身份验证设备进行交互，完成身份验证过程[2]。
3. 身份验证器：身份验证器是用于进行身份验证的设备，例如USB密钥、智能手机或计算机的可信平台模块（TPM）。这些设备保存用户的密钥，并在与服务交互时使用它们。身份验证器可以通过CTAP协议与浏览器进行通信，完成身份验证过程[3]。
FIDO2的工作流程如下：
1. 用户登录服务：用户使用用户名和密码登录Web服务。
2. 选择FIDO2身份验证：用户选择使用FIDO2进行身份验证，而不是传统的用户名和密码。
3. 与身份验证器交互：浏览器通过WebAuthn API与用户的身份验证器进行交互，向其发送请求并接收响应。
4. 完成身份验证：身份验证器使用保存的密钥对用户进行身份验证，并将结果发送回浏览器。
5. 访问服务：如果身份验证成功，用户将获得访问服务的权限。
FIDO2的优点和缺点：

优点：
- 更安全：FIDO2使用公钥加密技术，用户的私钥保存在身份验证器中，不会被泄露。这比传统的用户名和密码更安全。
- 更便捷：用户只需使用身份验证器进行一次注册，以后就可以通过简单的身份验证过程访问多个服务，无需记住多个密码。
- 跨平台支持：FIDO2可以在移动和桌面环境中使用，支持多种设备和操作系统。
缺点：
- 设备依赖性：FIDO2需要用户拥有兼容的身份验证器设备，如果用户没有这样的设备，就无法使用FIDO2进行身份验证。
- 依赖网络：FIDO2需要与Web服务进行通信，因此需要网络连接。如果网络不可用，用户无法进行身份验证。
总结：

FIDO2是一种新的身份验证方法，它通过结合WebAuthn和CTAP规范，使用户能够在移动和桌面环境中轻松地对在线服务进行身份验证。FIDO2提供了更安全、更便捷的身份验证方式，但需要用户拥有兼容的身份验证器设备和网络连接。

Learn more:
2023 年 11 月 23 日
WebAuthn 详细解析
WebAuthn是一种无密码身份验证技术，它允许用户在网站上进行安全的身份验证，而无需使用传统的用户名和密码。通过WebAuthn，用户可以使用指纹、面部识别、USB密钥等多种身份验证方式来登录网站，从而提高安全性和便利性。

下面是对WebAuthn的详细解析：

1. 什么是WebAuthn？

WebAuthn，全称Web Authentication，是W3C（万维网联盟）制定的一种用于在浏览器上进行身份验证的API。它是FIDO2（Fast Identity Online 2）标准的一部分，旨在提供更安全、更便捷的身份验证方式。

2. WebAuthn的工作原理

WebAuthn的工作原理可以分为以下几个步骤：

2.1 注册阶段
- 用户在网站上选择使用WebAuthn进行身份验证。
- 网站生成一个随机的挑战（Challenge）并将其发送给用户。
- 用户的认证器（Authenticator）生成一对公私钥，并将公钥与用户的身份信息绑定。
- 认证器将公钥、挑战和其他相关信息一起进行签名，并将签名结果发送给网站。
- 网站将用户的公钥和签名结果保存起来，用于后续的身份验证。
2.2 身份验证阶段
- 用户在网站上选择使用WebAuthn进行身份验证。
- 网站生成一个随机的挑战（Challenge）并将其发送给用户。
- 用户的认证器（Authenticator）使用保存的私钥对挑战进行签名，并将签名结果发送给网站。
- 网站验证签名结果的有效性，如果一致则表示用户身份验证通过。
3. WebAuthn的优势和应用场景

WebAuthn相比传统的用户名和密码身份验证方式具有以下优势：
- 更高的安全性：使用公私钥对挑战进行签名，避免了密码泄露的风险。
- 更便捷的用户体验：用户可以使用指纹、面部识别等生物特征进行身份验证，无需记住复杂的密码。
- 跨平台支持：WebAuthn可以在不同平台上使用，包括桌面浏览器、移动设备等。
WebAuthn的应用场景包括但不限于：
- 网站登录：用户可以使用WebAuthn进行网站登录，提高登录的安全性和便利性。
- 二次验证：WebAuthn可以作为二次验证的一种方式，提供额外的安全层级。
- 身份认证：WebAuthn可以用于身份认证，例如在金融、医疗等领域进行身份验证。
4. 使用WebAuthn的注意事项

使用WebAuthn时需要注意以下几点：
- 需要使用HTTPS协议或处于localhost环境下，以确保通信的安全性。
- 不同浏览器对WebAuthn的支持程度可能有所不同，开发者需要进行兼容性测试。
- 用户需要拥有支持WebAuthn的认证器，例如指纹识别设备、USB密钥等。
以上是对WebAuthn的详细解析，希望能帮助你更好地理解和应用这一无密码身份验证技术。

Learn more:
2023 年 11 月 23 日
什么是WebAuthn？
WebAuthn是一种无密码身份验证技术，它提供了一种更安全、更便捷的身份认证方式。下面将详细解析WebAuthn的工作原理和优势。

什么是WebAuthn？

WebAuthn是由W3C制定的Web身份认证标准，全称为Web Authentication。它使用公钥加密技术，允许用户通过生物特征（如指纹、面部识别）或硬件密钥（如USB密钥）来进行身份验证，从而实现更强大的身份认证。

WebAuthn的工作原理

WebAuthn的基本工作原理可以简单概括为以下几个步骤：
1. 用户注册：用户在第一次登录时，选择并注册一种或多种生物特征或硬件密钥作为身份认证凭证[2]。
2. 身份认证请求：用户在登录时，浏览器向服务器发送身份认证请求，请求身份验证[2]。
3. 凭证创建：服务器生成一次性的随机挑战，并将其发送给浏览器[2]。
4. 身份认证：浏览器使用注册的生物特征或硬件密钥对随机挑战进行签名，然后将签名和挑战发送给服务器[2]。
5. 身份认证验证：服务器验证签名和挑战的有效性，如果验证通过，则允许用户登录[2]。
WebAuthn的优势

WebAuthn具有以下优势：
1. 更安全的身份认证：WebAuthn使用公钥加密技术，保护用户的私钥不被传送到服务器，从而实现更安全的身份认证。即使服务器被攻击或数据泄露，用户的私钥仍然是安全的[2]。
2. 更便捷的身份认证：用户可以选择多种身份认证方式，并且在注册凭证后，无需再输入用户名和密码，即可进行身份认证[2]。
总结

WebAuthn是一种无密码身份验证技术，通过使用公钥加密技术和生物特征或硬件密钥进行身份认证，实现了更安全、更便捷的身份认证方式。它的工作原理简单明了，同时具有更安全的身份认证和更便捷的用户体验的优势。

Learn more:
2023 年 11 月 23 日
探索Zephyr-7B-β：一款掀起LLM新浪潮的强大语言模型

大家好，今天我要向你们介绍一个在人工智能领域中备受瞩目的明星——Zephyr-7B-β，这是一款性能高超的大型语言模型（LLM）。它的出现不仅改变了我们对AI的认知，更为我们的日常生活带来了无尽的可能。

Zephyr-7B-β是Zephyr系列的第二个模型，是基于Mistralai/Mistral-7B-v0.1并使用直接偏好优化（DPO）在公开可用的合成数据集上进行训练的微调版本。这款模型在发布时，在MT-Bench和AlpacaEval基准上的表现已经超越了许多其他同类产品，堪称7B类的聊天模型中的佼佼者。

Zephyr-7B-β：小巧却强大

虽然Zephyr-7B-β在模型大小上只有7B参数类似GPT的模型，但它在公开可用的合成数据集上进行微调后的性能却令人惊叹。特别是在MT-Bench的多个类别上，与Llama2-Chat-70B等较大的开放模型相比，Zephyr-7B-β具有较强的性能。

然而，无论任何事物都不可能完美，对于更复杂的任务，如编码和数学等，Zephyr-7B-β的表现仍有待提升。它在这些方面的表现暂时无法与更专业的模型相比，但我们相信，随着研究的深入，这种差距会逐步缩小。

Zephyr-7B-β：更多的可能性

Zephyr-7B-β最初是在经过过滤和预处理的UltraChat数据集上进行微调的，这个数据集包含了由ChatGPT生成的各种合成对话。随后，我们在openbmb/UltraFeedback数据集上进一步将模型与TRL的DPOTrainer对齐。这个数据集包含了按GPT-4排名的64k个提示和模型完成情况。

这就意味着，Zephyr-7B-β可以用于聊天，你可以查看我们的演示来测试其功能。同时，这款模型的代码已经在GitHub上开放，对于有兴趣的同学，可以自行下载研究。

Zephyr-7B-β：未来的挑战

然而，我们也需要看到，尽管Zephyr-7B-β的表现在许多方面都非常出色，但它也存在一些问题。例如，它尚未通过RLHF等技术与人类偏好保持一致，也未通过ChatGPT等响应的循环过滤进行部署，因此该模型可能会产生有问题的输出，特别是在提示时。

此外，尽管我们知道用于训练Zephyr-7B-β的数据集主要包含了由ChatGPT生成的各种合成对话，但我们仍然不清楚用于训练基本模型（mistralai/Mistral-7B-v0.1）的语料库的大小和组成。这些问题都是我们在未来需要解决的挑战。

Zephyr-7B-β的出现，无疑为我们展示了大型语言模型的强大潜力。通过不断的研究和改进，我们有理由相信，未来的Zephyr系列将会带给我们更多的惊喜～

2023 年 11 月 23 日
一次神奇的AI旅程：Zephyr-7B模型与Lora训练

大家好，今天我要给大家分享的是关于神奇的Zephyr-7B模型和Lora训练的故事。这是一次跨越三大洲的合作，让我们一起探索这个令人兴奋的AI世界。

Zephyr：直接蒸馏语言模型对齐

在 AI 的世界中，出现了一款名为 Zephyr-7B 的模型，它的出现可谓是一次划时代的突破。那么，Zephyr-7B 是如何诞生的呢？

几个月之前，一个位于巴黎的团队发布了他们的第一个模型：Mistral 7B。这个模型虽然体积小巧，但性能强大，在基准测试中超过了所有同类模型，更令人振奋的是，这是一个开源项目。

然后，Hugging Face H4团队的两名成员在一次小聚中，讨论了使用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性。他们在 HF hub 上找到了一些公开的数据集，包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集：UltraFeedback 和 UltraChat。

UltraFeedback 是一个大规模、多样化、细粒度的偏好数据集。UltraChat 则是高质量的对话数据集，包含了 150 余万条多轮指令数据。

经过几轮实验，使用 OpenBMB 两个数据集训练出来的新模型非常强大，是 H4 团队在伯克利和斯坦福的基准测试中见过的最强模型，并在之后被命名为 Zephyr模型。Zephyr-7B-alpha 的 MT-Bench 平均得分7.09，超越了 Llama2-70B-Chat。

这引发了一个重要的思考：一个基于高质量数据集的 7B 模型竟然打败了参数十倍之大的 LLaMA2-70B-Chat，这说明了什么？这说明，底层的数据工作才是最稀缺的和有时间价值的，这或许是各家各派大模型在百模大战中的突破口之一。

然后我们看到，Zephyr的优秀性能还得归功于使用了由斯坦福大学和CZ Biohub不久前合作提出的 DPO 方法。与传统的 PPO 强化学习方法不同，DPO 方法舍弃了强化学习，要比 PPO 稳定得多。

DPO的简单解释是：它绕过了建模奖励函数，相当于直接在偏好数据上优化模型，它解决了人类反馈的强化学习训练难、训练成本高的问题。

Zephyr-7B-beta的变革

进一步的，开发二代模型 Zephyr-7B-beta 时，团队思考了大模型所用的蒸馏监督微调（dSFT）。然而，用这种方法模型是不对齐的，不能很好地生成符合用户意图的输出。

所以，团队尝试使用AI反馈（AI Feedback，AIF）的偏好数据，用一个“教师模型”对输出进行排名，形成一个数据集，然后应用蒸馏直接偏好优化（dDPO）进行训练。这样，训练出的模型就能更好地对齐用户的意图，生成更好的输出。

Zephyr-7B-beta的测试数据也验证了这种方法的有效性。比对7B版本的模型，这款新模型在MT-Bench上的平均得分达到了7.18，几乎是目前所有模型中的最高分。

低成本训练Zephyr

接下来，我们来看看如何用低成本的方式训练Zephyr。这里就要提到一个名为”alignment-handbook”的项目。

“alignment-handbook”是一个非常实用的项目，为大家提供了全面的训练步骤，包括环境配置、SFT训练、DPO训练等。通过这个指南，你可以方便地在自己的电脑上完成训练。

使用SFT训练，我们可以在预训练模型的基础上进行微调，以达到我们期望的效果。而DPO训练则可以直接在偏好数据上优化模型。这两种训练方法都非常高效，可以在短时间内得到高质量的模型。

Lora训练

最后，我要与大家分享的是Lora训练。Lora是一种新的训练方法，通过给模型添加一些额外的参数，可以让模型的性能得到进一步的提升。

Lora训练虽然需要额外的计算资源，但它可以显著提高模型的性能。所以，如果你有足够的计算资源，我强烈推荐你尝试使用Lora训练。

总结

在这篇文章中，我向大家介绍了Zephyr-7B模型和Lora训练的神奇故事。希望通过这个故事，你能感受到AI技术的魅力，也希望你能够通过学习和实践，将这些技术应用到你的工作和生活中，让AI技术为你带来更多的便利和乐趣。

在未来的日子里，我相信我们会看到更多的突破和创新。让我们期待这个未来，一起探索这个充满无限可能的AI世界。

2023 年 11 月 23 日
带你走进MathJax：让所有浏览器都能美绘数学

大家好，欢迎来到今天的博客，我将向大家介绍一个名为MathJax的神奇工具，它将为你打开一个全新的、美丽的数学世界。对，你没有听错，这是一个能让所有浏览器都能优雅地展示数学公式的工具。无需为了阅读者进行繁琐的设置，一切都如你所愿，就是这么简单！

MathJax：变革者

MathJax，就是它，能够将你的传统印刷内容转化为现代化、易于访问的网页内容和电子书。无论是旧时的文档，还是新的在线内容，MathJax都能轻松转化，为特殊需要的读者提供全面的访问体验。更妙的是，MathJax也可以在服务器端工作流中使用，以准备可离线查看的内容或生成与现代电子书阅读器兼容的文档。只需要一次联系，我们就可以为你的机构提供有关内容转化服务的更多信息。

MathJax：教育者

你们的教育工作需要帮助吗？MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。无论是支持在线教学，还是在线考试，MathJax都能提供帮助。我们甚至可以为你的教师、教员和员工提供培训，教他们如何准备全面可访问的数学课程材料。

MathJax：顾问

当然，我们的服务并非只有以上这些。MathJax是一个非常灵活的系统，能够根据任何应用和任何内容的需求进行调整和定制。无论是静态网站还是高动态环境，无论是简单的教学讲义还是科学出版中的精密排版，MathJax都能胜任。不仅如此，我们还关注网页内容、软件解决方案和工作流的无障碍访问，我们会与你的工作人员一起工作，确保你的材料是完全无障碍的。

MathJax：艺术家

MathJax不仅仅是工具，更是艺术的创造者。它使用CSS和网络字体或SVG，而非位图图像或Flash，因此，无论怎样缩放，公式都能与周围的文本保持一致。MathJax的输入和输出模块也极其灵活，可以使用MathML，TeX和ASCIImath作为输入，生成HTML+CSS，SVG或MathML作为输出。而且MathJax与屏幕阅读器兼容，提供表达式缩放和交互式探索，你还可以将公式复制到Office，LaTeX，wiki和其他软件中。

MathJax：无障碍和可重用

MathJax提供了一套强大的无障碍扩展，这些扩展在客户端提供导航、探索和发声。通过MathJax的上下文菜单，你可以访问任何数学表达式的源代码，无论是MathML格式，还是原始的TeX或AsciiMath格式。

是的，这就是MathJax，一个美丽的、无障碍的、可重用的数学显示引擎。它是你的内容变革者，是你的教育者，是你的顾问，也是你的艺术家。让我们一起，用MathJax打造一个美丽、访问性强、充满创新的数学世界！

结语

在本篇博客中，我向大家介绍了MathJax这个神奇的工具。它能够让所有的浏览器都能优雅地展示数学公式，无需为了阅读者进行繁琐的设置，一切都如你所愿。MathJax不仅可以帮助你将传统印刷内容转化为现代化、易于访问的网页内容和电子书，还可以在服务器端工作流中使用，为特殊需要的读者提供全面的访问体验。此外，MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。

无论你是老师、学生，还是科研人员，只要你与数学打交道，MathJax都能为你提供帮助。如果你有任何疑问，或者想要了解更多关于MathJax的信息，欢迎联系我们。记住，数学是美丽的，而MathJax，就是展示这种美丽的最佳工具。

感谢你的阅读，我们下次再见！

2023 年 11 月 22 日
弥合神经辐射场之间的差距采用渐进式体积蒸馏的架构
神经辐射场（NeRF）方法已被证明是 3D 场景的紧凑、高质量和多功能表示，并支持编辑、检索、导航等下游任务。各种神经架构都在争夺NeRF的核心结构，包括普通的多层感知器（MLP）、稀疏张量、低秩张量、哈希表及其组成。这些表示形式中的每一种都有其特定的权衡。例如，基于哈希表的表示允许更快的训练和渲染，但它们缺乏明确的几何含义，阻碍了下游任务，如空间关系感知编辑。在本文中，我们提出了渐进式体积蒸馏（PVD），这是一种系统的蒸馏方法，允许不同架构之间的任意转换，包括MLP、稀疏或低秩张量、哈希表及其组成。因此，PVD 使下游应用程序能够以事后方式对手头的任务进行最佳调整神经表示。转换速度很快，因为蒸馏是在不同级别的体积表示上逐步进行的，从浅到深。我们还采用了特殊的密度处理来处理其特定的数值不稳定问题。在NeRF-Synthetic、LLFF和TanksAndTemples数据集上验证了我们的方法。例如，使用 PVD，可以从基于哈希表的 Instant-NGP 模型中提炼出基于 MLP 的 NeRF 模型，其速度比从头开始训练原始 NeRF 快 10 倍~20 倍，同时实现卓越的合成质量水平。代码可在 https://github.com/megvii-research/AAAI2023-PVD 上获得。

Key Points
- 1. Novel view synthesis (NVS) 是一种生成 photo realistic 2D 图像的技术，用于三维场景的未知视角。NVS 已在渲染、定位和机器人手臂操作等领域得到广泛应用。最近开发的神经辐射场（NeRF）提供了神经建模能力。
  
  2. NeRF 可以显著提高 NVS 的质量，利用多层感知器（MLP）的强大泛化能力。采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  
  3. 特征张量过大导致寻找更紧凑表示的需求。TensorRF 等方法利用 VM（向量 – 矩阵）分解和序数分解（CPD）等方法实现特征张量的有效压缩。
  
  4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和动态场景建模。但使用显性或混合表示通常具有更快的训练速度，能更好地处理几何上的编辑。
  
  5. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  
  6. 在本文中，我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。
  
  7. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。
  
  8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。MLP 的输入是 5D 坐标，输出是体积密度和视相关颜色。
  
  9. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。
  
  10. Explicit representations 将场景直接放置在 3D 格中（巨大的张量）。NVS 领域已经进行了多次尝试。Barron 等人提出了一种方法。
  
  11. 我们试图在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不试图逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。
  
  12. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。
  
  13. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
  
  14. 接下来，我们将简要介绍一些基础知识，然后详细介绍我们的方法。
  
  15. NeRF 用一个隐函数将空间点 x = (x, y, z) 和视方向 d = (θ, φ) 映射到密度σ和颜色 c。对于沿光线方向 r 从点 o 出发的相应像素的 RGB 值ŷ(r)，通过 color c i 和空间点 x i = o + t i d 沿着光线采样得到：其中 T i = exp(-i-1j=1σiδi)，δi 是相邻样本之间的距离。
  
  16. 张量和张量低秩表示。Plenoxels 通过显式网格（张量）直接表示 3D 场景（Fridovich-Keil 等人，2022）。每个网格点都存储密度和球面谐波（SH）系数。颜色 c 根据 SH 和观察方向 d 计算。
Related Work
- 1. Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角（周等人，2018 年; 坎等人，2021 年; 西特曼，祖豪费和威斯坦，2019 年 a），并在渲染、定位和机器人手臂操作（Adamkiewicz 等人，2022 年; Moreau 等人，2022 年; Peng 等人，2021 年）等领域具有广泛的应用，特别是最近开发的神经辐射场（NeRF）提供了神经建模能力。
  2. 利用多层感知器（MLP）的强大泛化能力，NeRF 可以显著提高 NVS 的质量。
  3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
  5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
  6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  8. 在本文中，我们从另一个角度处理这个问题。我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。例如，当使用具有哈希表的教师模型蒸馏学生模型的显性表示时，现在可以从教师的速度中受益，同时仍然生成具有清晰几何结构的学
Method
- 作者通过以下方法取得结果:
  
  1. 利用 Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  2. 利用多层感知器 (MLP) 的强大泛化能力，显著提高 NVS 的质量。
  3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF(Chen 等人，2022 年) 利用 VM(向量 – 矩阵) 分解和序数分解 (CPD),Fridovich-Keil 等人利用张量的稀疏性，而 INGP(Müller 等人，2022 年) 利用多级哈希表实现特征张量的有效压缩。
  5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑 (例如颜色、照明变化和变形等),艺术的风格化和动态场景建模 (Tang 等人，2022 年; Kobayashi,Matsumoto 和 Sitzmann,2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年)。
  6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  8. 在本文中，作者提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。
  9. 作者还提出了一种方法，称为 PVD(渐进体积蒸馏),用于在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
  10. 作者还提出了一种基于统一视图的蒸馏方案，可以在不同的 NeRF 架构之间实现相互转换。作者得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表 (INGP) 和低秩张量 (TensorRF 中的 VM 分解)。
  11. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
  12. 接下来，作者简要介绍了一些基础知识，然后详细介绍了他们的方法。
Result
- 实验结果：
  
  1. 利用 Novel view synthesis (NVS) 生成了 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  2. NeRF 可以显著提高 NVS 的质量，同时采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  3. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
  4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
  5. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  6. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，从浅到深，特别关注密度体积以获得更好的数值稳定性。
  7. PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
  8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。
  9. MLP 的输入是 5D 坐标（空间位置 [x, y, z] 和查看方向 [θ, φ]，输出是体积密度和视相关颜色）。
  10. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。
  11. Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。
  12. explicit representations 将场景直接放置在 3D 格中（巨大的张量）。
  13. 在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。
  14. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。
  15. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
Conclusion
- 1. 作者在这篇论文中得到的主要结论如下：
  * Novel view synthesis (NVS) 技术可以生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  * NeRF 模型可以显著提高 NVS 的质量，而采用特征张量作为辅助的显性表示可以减轻 MLP 的记忆场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  * 特征张量过大导致寻找更紧凑表示的需求，因此作者提出了一些方法，如 TensorRF，利用 VM（向量 – 矩阵）分解和序数分解实现特征张量的有效压缩。
  * 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和艺术的风格化和动态场景建模。
  * 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑。
  * 选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  * 该论文提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。
  * 这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。
  * 作者还提出了一种 PVD（渐进体积蒸馏）方法，可以在不同体积表示水平上操作的蒸馏方法，以获得更好的数值稳定性。
2023 年 11 月 22 日
在少样本学习中双曲与欧几里得嵌入
最近在表示学习领域的研究表明，层次数据在双曲空间中可以得到低维且高度信息丰富的表示。然而，尽管在图像识别中双曲嵌入已经引起了人们的关注，但它们的优化仍然容易受到数值障碍的影响。此外，与传统欧氏特征相比，尚不清楚哪些应用最有可能从双曲性所施加的隐式偏差中受益。在本文中，我们关注原型双曲神经网络。特别地，高维空间中双曲嵌入趋向于收敛到Poincaré球体的边界，以及这对少样本分类的影响。我们发现，在公共双曲半径下的双曲嵌入可以获得最佳少样本结果。与之前的基准结果相比，我们证明了使用欧氏度量的固定半径编码器可以实现更好的性能，而不管嵌入维数如何。
- 重点：
  1. 超球面（hyperbolic space）与欧氏空间（Euclidean space）相似，但曲率不同。
  2. 超球面存在多种同形模型，其中最常见的模型是超球面（hyperboloid）和波恩卡雷球（Poincaré ball）。
  3. 在机器学习中，超球面模型最常见的应用是波恩卡雷球模型。
  4. 波恩卡雷球模型可以从一个超球面模型（hyperboloid model）得到。
  5. 在本文中，我们将使用波恩卡雷球模型，该模型可以从超球面模型（hyperboloid model）得到。
  6. 考虑 Minkowski 空间 Rd，1={x=(x1, …, xd+1)∈Rd×R}，以及双线性形式（Lorentz 伪标量）L⟨x, x⟩。
  7. L 形式在 Rd，1 上不是正定，但在 d-hyperboloid 上半平面内的曲率 k<0 时，是正定的。
  8. 我们可以通过包容映射ϕ将波恩卡雷球模型从超球面模型得到。
  9. 波恩卡雷球模型在原点处的指数映射是 TPd k → Pd k。
  10. 这使得我们可以将欧氏空间的神经网络转换为超球空间的神经网络。
  11. 在波恩卡雷球模型中，从任何∈Pd k 的 x 和 y 之间的最短路径距离可以通过计算 Pincaré球（Poincaré ball）得到。
  12. Ressler 等人提出的剪枝策略包括为 f(x; θ) 设置最大幅度 c，将波恩卡雷球缩小到半径为 c 的球中。
  13. 在训练过程中，对于合适的损失函数 L，以及 z := h(x; θ)∈Pd k，可以对欧氏梯度∇z L 进行反向传播（见 [13] 的实现），或者将其转换为 Riemannian 梯度通过反比例缩放 grad z L = λ(z) -2 ∇z L(z)，如 [12] 中所示。
2023 年 11 月 22 日
大型语言模型是上下文语义推理器，而不是符号推理者
大规模语言模型（LLM）的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用，但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中，我们假设在推理过程中，所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同，LLM的语义表示可以在标记之间建立强烈的联系，从而组成一个肤浅的逻辑链。为了测试我们的假设，我们从语言推理过程中解耦语义，并评估三种推理能力，即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时，LLM的表现要好得多，但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力，并激励研究揭示黑盒LLM中存在的魔力。总的来说，我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。

Introduction
- 近年来，大型语言模型（LLMs）已经在各种自然语言任务中取得了显著的性能，包括问答、文本摘要、机器翻译、逻辑推理等。这些成功主要归功于 LLMs 能够利用“零次”或“几次”学习方法而无需任何梯度更新 – 任务描述或几个例子来引导其推理过程 [1][2][3][4]。一个典型的例子是“链式思维”（CoT）方法，涉及推理演示或简单的提示，例如“让我们一步一步地思考”来执行复杂推理任务 [5,6]。尽管 LLMs 具有强大的上下文学习能力，但它们在给定上下文中的运作机制仍不清楚。先前的研究调查了给定示例中哪些方面有助于最终任务绩效，包括地面真实标签和示例顺序 [7][8][9]。另一条线的工作重点在于解释和利用上下文学习（ICL）机制 [10][11][12][13]。然而，它们共同的基本问题是，它们输入的上下文提示是基于自然语言查询来探究 LLMs 的推理能力。根据双过程理论 [14,15]，人类通常使用系统 II 的符号推理来解决复杂的逻辑推理问题。为了填补研究空白，我们通过将语义与语言推理过程解耦来系统地研究 LLMs 的上下文推理能力。通过广泛的实验，我们旨在回答以下研究问题：LLMs 是否在没有语义的情况下是好的上下文推理器？在本工作中，我们假设语言标记的学习确实在推理过程中发挥了重要作用，创建了标记之间强烈的连接，从而形成一个表面逻辑链（捷径），而不是真正执行正式推理过程。为了测试我们的假设，给定符号知识（事实和规则），我们在新提出的合成数据集上测试三种推理能力（即演绎、归纳和演绎推理）：由逻辑规则生成的封闭世界、无噪音的多跃点符号推理数据集 Symbolic Tree dataset。此外，我们还使用 ProofWriter [16] Depth-1 任务，该任务包含答案需要推理多达深度 D=1 的问题。我们的研究结果表明，语义确实在 LLMs 的上下文推理中发挥了重要作用：当语义与常识一致时，LLMs 表现相当良好；当语义与上下文背景不一致或为反常语义时，LLMs 无法通过利用上下文新知识来解决推理任务。此外，我们还研究了 LLMs 的忆
Related Works
- 1. 推理在 LLMs 中的重要性：推理是涉及逻辑推断和基于给定信息的合乎逻辑的结论的基本认知过程。在自然语言处理领域（NLP）早期就已经进行了大量的研究。
  2. 推理相关的基准：随着 NLP 领域的研究，各种关注推理的基准已经提出，包括自然语言推理（NLI）[18][19][20]、常识推理 [21,22]、多跳推理 [23,24] 等。
  3. 对 LLM 推理能力的兴趣增加：近年来，人们对研究 LLM 的推理能力越来越感兴趣。研究人员探讨了各种方法，以便让 LLM 在推理任务上表现更好。
  4. 链式思维（CoT）的提出：CoT 被提出，以便让模型生成一个推理路径，将复杂的推理分解成多个较小的步骤。在数学 [26]、常识 [21,27] 和符号推理 [5] 基准上，这种方法显著提高了性能。
  5. 模糊语义下的推理能力：尽管在各种推理基准上取得了显著的性能，但所有任务都富含语义。因此，还不清楚 LLM 的推理能力来自哪里。这促使我们研究在语义解耦的情况下分析 LLM 的推理能力。
  6. 上下文学习与推理能力的关系：上下文学习（ICL）与 LLM 的推理能力密切相关。ICL 是指语言模型在推理过程中从几个示例中学习并适应的能力。
  7. 改进 ICL 的研究：一些研究使用现有的无监督相似性度量或训练提示检索器来选择相关示例 [28][29][30]，others 将任务指令或不同的任务提示 [31,32] 纳入其中。
  8. ICL 性能的变异性：尽管在实证上取得了成功，但上下文示例的选择可能会导致很大的性能波动 [34,9]。最近的研究还探索了 ground-truth 标签和问题，ground-truth 输入输出映射是否必要，仅使用不正确的标签在示例中只略微降低性能 [35]，而上下文示例中的输入 – 标签一致性在 contextual demonstration 中起重要作用 [36]。
  9. 理解为什么上下文学习有效：一些研究提供了理论分析，将上下文学习表示为贝叶斯推断 [13]，或者某些示例中的 ICL 可以理解为已知学习算法的隐实现 [37]。然而，现有的上下文学习能力分析主要基于自然语言输入和丰富的语义信息。我们猜测，这个图 1 中的任务定义。记忆：从上下文知识中检索预测的事实。演绎：根据规则和事实预测预测的事实的正确性。归纳：根据具有相似模式的多个事实生成规则。类比：根据给定的规则和事实解释预测的事实。可能无法反映其在推导、归纳和类比方面的真正水平。
Task Definitions
- 1. 推理和记忆机制的定义及其任务描述
  2. 记忆在推理中的关键作用，包括存储推理过程中所需的上下文知识
  3. 可以将记忆视为深度为 0 的推理，其中问题是一个已知事实
  4. 推理任务涉及从存储的上下文知识中检索事实本身
  5. 语义对记忆的影响尚未得到充分研究，因此除了将语义从推理中解耦外，我们还试图研究语义对记忆的影响
  6. 使用新数据集微调语言模型，测试其在时间、效率和遗忘比例方面的表现
  7. 在评估是否成功添加或更新一个事实时，我们查询 LLM，使用关于尾实体的问
Semantics Matter in LLMs’ memorizing
- 本文比较了 LLM 的记忆力与对新符号和语义信息的记忆力。结果报告在表 1 中。从表 1 中，我们可以看到添加和更新语义知识的效率比添加和更新符号知识更高。这表明，与人类记忆能力相似，LLMs 更容易记住语义知识而不是符号知识（通常记忆符号比理解相关语义更具有挑战性）。然而，我们还在语义设置中的遗忘比例上发现，语义设置的遗忘比例比符号设置高。这可以归因于 LLMs 中语义知识具有更强的系数，这意味着在更新某些知识时，对系统中的其他知识产生更重大影响。在将 LLM 与图数据库 Neo4j 的比较中，我们可以看到，无论插入或编辑新的三元组，使用 Neo4j 进行知识更新都达到 100% 的准确率，无论知识是符号还是语义。预料之中，因为添加或更新的知识不与现有知识集重叠，所以不会对现有知识库产生进一步影响。这突出了使用非参数化知识库的优势。此外，与 LLM fine-tuning 的计算成本相比，使用优化存储机制的图数据库更新知识显著更快。这表明将 LLM 与非参数化知识库相结合可以提供在实际应用中更实际、更有效的途径。我们首先考虑将语义从上下文推理中解耦与保留原始语义之间的影响。在表 2 中，我们展示了在 Symbolic Tree 数据集上进行演绎、归纳和类比推理任务的结果。从表 2 中，我们观察到在两个演绎和归纳推理场景中，语义设置显著优于符号设置。值得注意的是，在归纳实验中，语义设置比符号设置大约高 30% 的准确度。这表明，在推理过程中保留丰富的语义可以使 LLM 的表现更好。虽然类比推理中，符号设置与语义设置的结果相当，但重要的是要注意，类比推理任务中的长上下文知识可能增加从记忆中选择相关信息和推理的难度。为了进一步研究这个问题，我们在一个更小的 Symbolic Tree 数据集上进行了额外的实验，结果在附录 O 中证实了语义设置仍然优于符号设置。这证实了保留语义可以提高 LLM 的推理能力。尽管 LLM 具有丰富的语义和强大的语言理解能力，但在与专门用于符号推理的方法相比，它们在推理任务上表现不佳。这表明，尽管 LLM 拥有广泛的知識庫和強大的語言理解能力，但 symbolic reasoning 不是它們相对于特定 symbolic-based reasoning 方法的主要优势。上述实验为语义对 LLM 推理的重要性提供了初步证据。
Conclusion and Discussion
- 本文介绍了首次对 LLM 推理能力中语义学角色的全面调查，通过将语义学与上下文提示分离。实验结果表明，当语义与常识一致时，LLM 表现相当良好；当语义与上下文不同时，LLM 无法通过利用上下文中的新知识来解决推理任务。这些发现揭示了语义在 LLM 推理能力中的重要性，并激发了对揭示黑盒 LLM 中存在的魔法的进一步研究。根据我们分析中发现的结论，我们指出了几个大型基础模型未来发展的潜在方向：更复杂的符号推理基准：为了提高 LLM 的上下文符号推理能力，需要开发具有分离语义的新数据集和更复杂的推理任务。这些基准应该挑战具有多样性和复杂符号知识的 LLM。结合外部非参数知识库：我们的实验结果表明，LLM 的存储能力与现有的图数据库方法不可比。这促使我们考虑将 LLM 与外部非参数知识库（如图数据库）集成，以提高其知识添加和更新。这种混合方法可以利用 LLM 的语言理解和非参数来源中存储的全面知识。提高处理上下文知识的能力：更强大和有力的能力来处理和记住上下文知识对于执行上下文推理任务至关重要。进一步的研究需要改进 LLM 在处理和利用上下文知识方面的能力。这包括开发机制，以更好地编码和检索相关信息，以便更有效地推理。从事实中，我们知道 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan)。因此，我们可以应用 L11，其中 A = Amelie，B = Thomas，C = Jonathan，D 和 E 为变量。这给我们带来了：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) ∧ r2(Amelie) → r14(Amelie, E)。由于我们知道 r2(Amelie) 是 F7 中的真实陈述，我们可以将上述声明简化为：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。现在，我们可以将 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan) 代入得到：r3(Thomas, Jonathan) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。我们可以看到，在选择 D = Alina 和 E = Jonathan 时，这个语句是正确的，因为我们有 r3(Thomas, Alina) 和 r3(Alina, Jonathan)。因此，r14(Amelie, Jonathan) 是正确的。答案是 True。因此，答案是 True。声明：r8(Leonie, Nico) 答案：我们可以使用 L5 来推断 r8(Leonie, Nico) 的真假。L5 说明，如果存在三个个体 A、B 和 C，使得 A 与 B 相关，B 与 C 相关，并且 A 具有某种属性（r2），则 A 与 C 以某种方式相关（r8）。使用这个规则，我们可以看到我们具有以下事实：-r3(Leonie, Emily) -r3(Emily, Nico) 因此，我们可以得出 r8(Leonie, Nico) 是真实的结论。声明：r7(Patrick, Alina) 答案：我们可以使用 L4：∀A, B：r3(A, B) ∧ r1(A) → r7(A, B) 来确定 r7(Patrick, Alina) 是真还是假。
2023 年 11 月 22 日
CPET: Effective Parameter-Efficient Tuning for Compressed Large Language Models
参数效率调优（PET）近年来得到了广泛的研究，因为它在调优更少的参数（PET 模块）的同时，仍然可以从大型语言模型（LLMs）中激发足够的知识以用于下游任务。此外，当 PET 用于服务多个任务时，可以在冷冻的 LLM 上构建不同的任务特定 PET 模块，避免冗余的 LLM 部署。尽管 PET 显著降低了调优和部署 LLM 的成本，但其推理仍受到 LLM 计算瓶颈的影响。为了解决上述问题，我们提出了一种基于压缩 LLM 的有效 PET 框架，名为\”CPET\”。在 CPET 中，我们评估了主流 LLM 压缩技术对 PET 性能的影响，然后引入了知识继承和恢复策略来恢复这些压缩技术导致的知识损失。我们的实验结果表明，由于 CPET 的恢复策略，将任务特定 PET 模块与压缩 LLM 协作可以实现与协作 PET 模块与压缩 LLM 的原始版本相当的性能，并优于直接将朴素 PET 方法应用于压缩 LLM。

这篇论文介绍了一种新的框架 CPET，用于有效且参数高效的调整压缩大型语言模型。CPET 通过评估主流 LLM 压缩技术的影响，并引入知识继承和恢复策略来恢复这些压缩技术导致的知识损失。实验结果表明，由于 CPET 的恢复策略，将任务特定 PET 模块与压缩 LLM 合作可以实现与将 PET 模块与原始压缩 LLM 合作相媲美的性能，并且优于直接将经典 PET 方法应用于压缩 LLM。CPET 可以解决 PET 在推断时仍然存在的 LLM 计算瓶颈问题，同时显著降低 LLM 调整和部署的成本。

Introduction
- 近年来，数据规模和计算能力的增长推动了语言模型的参数规模的增长。虽然一些参数数量仅有数百万的小型和中型语言模型（Jawahar 等人，2019；Yenicelik 等人，2020）已经在捕捉丰富知识方面表现出色（Jawahar 等人，2019；Yenicelik 等人，2020），但大型语言模型（LLMs）拥有数十亿个参数（Brown 等人，2020；Black 等人，2022；Chowdhery 等人，2022）则表现出了更强大和更全面的能力，特别是在认知和体现方面（Lewkowski 等人，2022；Nakano 等人，2021；Driess 等人，2023）。尽管 LLM 取得了成功，但如何将 LLM 应用于实际场景中仍然是一个重要问题。由于大多数用户无法承担运行 LLM 的巨大成本，因此主要的解决方案是提供 LLM 服务，服务提供商（Ope-nAI，2022；谷歌，2023）将 LLM 适配为特定任务，然后提供用户界面以推断任务特定的 LLM。为了将 LLM 服务扩展到多任务场景中，参数效率调优（PET）已经广泛用于 LLM 的任务适配，其中将统一的 LLM 冻结为不同任务之间的骨干，然后在骨干上注入微小的可调整性 PET 模块，以刺激任务特定的知识。与传统的全参数微调（FT）相比，PET 在多任务服务中调用的参数数量要少得多，同时具有更低的内存开销，并实现与 FT 相当的性能（Ding 等人，2023；周等人，2022）。尽管 PET 在降低 LLM 的调优和部署成本方面显示出潜力，但计算共享骨干 LLM 的计算仍然必不可少，即推断骨干 LLM 和 PET 模块的组合是计算密集型和高延迟的。实验证明，采用模型压缩技术（Hinton 等人，2015；Bai 等人，2021；Liang 等人，2021）将 LLM 压缩成更小的版本是应对推断 LLM 不同延迟需求的解决方案，但压缩后的 LLM 是否能与压缩的 LLM 配合良好仍然是一个开放性问题，特别是考虑到模型压缩技术可能会引入知识丢失和性能退化到压缩的 LLM。在本文中，我们构建了一个有效的 PET 框架，名为“CPET”。为了恢复由压缩过程引起的知识丢失，CPET 引入以下两种机制：（1）PET 知识继承。更强大的 LLM 可以使学习 PET 模块更容易。同时，基于更强大
Related Work
- 本文重点介绍了与 LLMs、PET 和模型压缩相关的内容。在本文中，我们主要介绍了 PET 和模型压缩方法。有关 LLMs 的详细信息可以在相关综述中查阅（Qiu 等人，2020；Han 等人，2021；Bommasani 等人，2021；Zhao 等人，2023）。近年来，已经广泛研究了基于 Transformer 预训练语言模型（PLM），例如 GPT（Brown 等人，2020）和 BERT（Devlin 等人，2018）。随着预训练数据量和 PLM 参数规模的增长，大规模 PLM（Kaplan 等人，2020），即 LLM（Brown 等人，2020；Black 等人，2022；Chowdhery 等人，2022）也出现了，并且表现出了强大的能力（Wei 等人，2022），特别是在某些认知和体现场景中（Lewkowski 等人，2022；Nakano 等人，2021；Driess 等人，2023）。尽管 LLM 可以从大规模预训练数据中获取丰富的知识，以在零散或几散手方式处理复杂任务（Brown 等人，2020；Black 等人，2022），但为了更好地刺激 LLM 中存储的知识以服务于下游任务，仍需要将 LLM 适应各种特定任务场景。对于传统的 PLM，调整所有参数是适应它们的主要方法（Church 等人，2021），但这种方法由于参数效率低而变得昂贵，特别是在适应 LLM 时（Ding 等人，2023）。此外，在存储中维护特定任务的 LLM 版本是可接受的资源消耗（Zhou 等人，2022）。为了更有效地适应多任务场景，已经提出了各种 PET 方法（Lester 等人，2021；Houlsby 等人，2019；Hu 等人，2021；Li 和 Liang，2021；Ben Zaken 等人，2022），其中将冻结的 LLM 和一些可调整的模块注入到 LLM 的 Transformer 架构中，以帮助适应过程。PET 模块通常非常小，这可以显著降低调整 LLM 的成本。PET 模块可以注入到 Transformer 架构中的不同位置。例如，提示调整（Lester 等人，2021）和前缀调整（Li 和 Liang，2021）分别是将可调整的嵌入式向量添加到输入和隐藏状态中的两个方法。适配器调整（Houlsby 等人，2019）应用于相邻模块之间可调整的变换。BitFit（Ben Zaken 等人，2022）和 LoRA（Hu 等人，2021）对 Transformer 架构中的模块进行了轻微的内部修改。如前所述，LLM 已经获得了丰富的能力，只需要一种有效的方式来激发这些能力。可调整的 PET 模块的作用是学习任务特征，作为激发 LLM 特定能力的触发器（Ding 等人，2023）。足够的实验证明，将任务特定的 PET 模块与冻结的 LLM 结合可以达到与仅微调所有 LLM 参数相同的性能。此外，由于不同的任务特定的 PET 模块可以共享一个统一的冻结 LLM 作为它们的骨干，这也导致了在多任务服务和切换中的计算和存储开销较低（Zhou 等人，2022）。总的来说，PET 方法的出现显著降低了调整和部署 LLM 的成本。尽管 PET 方法可以降低部署 LLM 的存储成本，但 LLM 本身的计算瓶颈仍然存在。因此，为了进一步提高模型服务的效率，加快 LLM 的计算速度和模型压缩是关键。
Methodology
- 本文将介绍如何构建基于压缩 LLM 的有效 PET 框架 CPET。在介绍 CPET 之前，我们首先介绍一些必要的前置知识。为了简化，我们将一个完整的变压器架构表示为 Y = f(X; θ M)，其中 f(•) 表示整个变压器架构的功能，θ M 是变压器的参数，X 是输入，Y 是输出。在 FT 设置中，所有 M 的参数（即θ M）都被调优，其中 X t , Y t 是下游任务 t 的数据，L 是任务 t 的损失函数。θ t M 是变压器 M 的最终任务特定模型参数。在 PET 设置中，M 被冻结，并使用任务特定数据调优 PET 模块 P。R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f u K e M 5 Q = = X < l a t e x i t s h a 1 _ b a s e 6 4 = \” 3 V P m 2 u q r r N w s X 6 R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f r g u M 3 g = = Q < l a t e x i t s h a 1 _ b a s e 6 4 = \” L P m T p l 8 R n e I U 3 5 9 F 5 c d 6 d j 0 V r w c l n j u E P n M 8 f t Z + M 4 w = = V < l a t e x i t s h a 1 _ b a s e 6 4 = \” < l a t e x i t s h a 1 _ b a s e 6 4 = \” g 6 G q 8 6 0 G e 4 n / B s e T 6 j S M 3 B m F < l a t e x i t s h a 1 _ b a s e 6 4 = \” 0 v 2 A u p W P 5 T U N g P y 4 J m g G r f m w P
  
  我们称注入到变压器 M 中的 PET 模块的参数为θ P(M)。如图 1 所示，由于注入了 PET 模块，变压器架构的计算方式略有改变，变为 Y = f PET(X; θ M , θ P(M))。调优过程可以用以下公式表示：θ t P(M) 是最终任务特定 PET 模块，与变压器 M 协作。本文旨在通过压缩变压器 M 获得 PET 模块。为此，在压缩变压器 M 后，使其具有较少的参数或更低的位表示，我们将压缩的变压器 M 及其参数分别称为 C 和θ C。那么，压缩模型的计算可以表示为 Y = f(X; θ C)。由于 PET 方法不改变变压器 M，因此采用 PET 方法与压缩变压器 M 是正交的。因此，我们提出了更有效的 PET 框架 CPET，首先通过任务无关的模型压缩方法压缩变压器 M，然后将 PET 方法应用于压缩的变压器 M。压缩方法包括：1）使用任务无关的压缩方法压缩变压器 M，保持变压器 M 的位表示和插入位置不变；2）使用压缩的变压器 M 代替未压缩的变压器 M，可以显著减少变压器的推理时间和资源需求。值得注意的是，这种加速是不免费的。想象一下，采用任务无关的压缩方法可能会削弱变压器 M，这将不可避免地影响最佳参数θ t P(C) 的搜索和最终模型 f PET(X; θ C , θ t P(C)) 的效果。
Experiment
- 1. 实验使用了 11 个数据集，包括 BoolQ、CB、RTE、COPA、WiC、SST-2、MRPC、QQP、MNLI、QNLI 和 SQuAD，这些数据集涵盖了典型的 NLP 任务。
  2. 实验使用了 T5-3B 模型，该模型由张等人（2022a）提出。
  3. 实验使用了 8 位量化、结构化剪枝、无结构化剪枝和量化方法。
  4. 实验实现了四个范式：T5-3b + PET，T5-base + PET，CLM + PET 和 CLM + CPET。
  5. 在这些范式中，T5-3b + PET 和 T5-base + PET 使用了 PET 模块，而 CLM + PET 和 CLM + CPET 使用了压缩的 T5-3B（CLM）。
  6. 实验使用了 OpenDelta 工具包（Ding 等人，2023）来实现这些范式。
  7. 使用了 LoRA 方法（Hu 等人，2021）作为 PET 方法的基准。
  8. 设置了 LoRA 模块的瓶颈维度为 32。
  9. 设置了恢复模块的瓶颈维度为 32。
  10. 实验使用了三种学习率：{1e-3, 5e-4, 1e-4, 1e-5}。
  11. 实验使用了{8, 16, 32, 64, 128, 256}中的一个 batch size。
  12. 实验使用了 1e-2 的权重衰减。
  13. 实验将蒸馏系数设置为α = 0.05。
  14. 图 2 显示了 CPET 与 PET 之间的性能改进。
  15. 从图中可以看出，与原始 LLM 相比，压缩的 LLM 的性能不如原始 LLM。这说明任务无关的压缩方法导致了一些与下游任务相关的知识丢失。也就是说，为了提高推理速度，压缩模型的性能可能会下降，因为加速过程会影响性能。
  16. 在压缩模型中，CPET 在所有情况下都优于纯 PET 方法。
Conclusion
- 本文提出了一种基于压缩 LLM（CPET）的有效 PET 框架，以进一步降低部署 LLM 和 PET 模块时的资源要求和推理速度。由于任务无关压缩方法可能导致丢失一些任务特定知识，我们引入了 PET 知识继承和模型知识恢复以恢复丢失的知识。通过从非压缩 LLM 中继承 PET 模块的先前任务知识，可以更容易地找到压缩 LLM 的最佳 PET 模块。此外，通过引入知识恢复模块以恢复压缩阶段丢失的任务特定能力，与压缩 LLM 合作的 PET 模块可以实现与基于非压缩 LLM 的 PET 模块相当的性能。实验结果表明，CPET 可以超越基于压缩 LLM 的基线，同时，CPET 保持了 PET 方法在多任务服务方面的优势。本文主要加速了 PET 方法和 LLMs 的推理。我们将未来工作留给了解决 LLMs 计算瓶颈。
2023 年 11 月 22 日
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
受大型语言模型（LLM）增强的自主代理已经取得了显著的改进，使它们能够推广到各种任务。然而，在现实世界的场景中，通常需要个人之间的合作以提高任务完成的效率和有效性。因此，受人类群体动力学的启发，我们提出了一个多智能体框架\\framework，可以作为一个整体大于部分之和的系统，共同和动态地调整其组成。我们的实验证明，\\framework 框架可以有效地部署多智能体群体，其性能优于单个智能体。此外，我们深入探讨了在协作任务完成过程中，群体内各个智能体之间社会行为的产生。鉴于这些行为，我们讨论了一些可能的策略，以便利用积极的行为并减轻消极的行为，从而提高多智能体群体的协作潜力。我们的\\framework 代码很快将在 https://github.com/OpenBMB/AgentVerse 上发布。

Key Points
- 以下是该段落的重点：
  
  1. 人工智能领域的一个重要目标是创建智能自主的代理，以协助人类并在现实世界环境中有效运行。
  
  2. 大型语言模型（LLMs）的进步为实现这一目标提供了新的机会。特别是，提出的 GPT-4 模型以其在语言理解、视觉、编码和数学等领域的卓越能力而引人注目。
  
  3. 利用 LLM 的能力，自主代理可以在完成任务时做出更有效的决策并采取高效的行动，实现前所未有的自主程度。
  
  4. 最近的研究赋予了自主代理更多的人类类似认知机制，包括反思、任务分解和工具利用/创作。
  
  5. 这些进步使我们更接近实现人工通用智能（AGI）的概念，使自主代理能够在更广泛的任务范围内进行泛化。
  
  6. 在实际场景中，复杂的任务可能需要个人之间的合作才能提高效率和有效性。
  
  7. 最近的研究集中在探索自主代理合作的潜力，并将代理组织视为社会或团体。
  
  8. AGENTVERSE 框架模拟了人类团体的问题解决过程，并允许根据当前的问题解决进度动态调整组员。
  
  9. AGENTVERSE 将团体问题解决过程分为四个关键阶段：专家招聘、协作决策、行动执行。
  
  10. AGENTVERSE 通过量化实验和案例研究来证明其可以比单个代理更有效地指导自主代理组共同完成任务。
Related Work
- 以下是该段落的重点：
  
  1. 人工智能领域的一个重要目标是创建智能自主的代理，以协助人类并在现实世界环境中有效运行。
  
  2. 最近，大型语言模型（LLMs）的进步为实现这一目标提供了新的机会。特别是，提出的 GPT-4 模型以其在语言理解、视觉、编码和数学等领域的卓越能力而引人注目。
  
  3. 利用 LLM 的能力，自主代理可以在完成任务时做出更有效的决策并采取高效的行动，实现前所未有的自主程度。
  
  4. 最近的研究赋予了自主代理更多的人类类似认知机制，包括反思、任务分解和工具利用/创作。
  
  5. 这些进步使我们更接近实现人工通用智能（AGI）的概念，使自主代理能够在更广泛的任务范围内进行泛化。
  
  6. 在实际场景中，复杂的任务可能需要个人之间的合作才能提高效率和有效性。
  
  7. 最近的研究集中在探索自主代理合作的潜力，并将代理组织视为社会或团体。
  
  8. AGENTVERSE 框架模拟了人类团体的问题解决过程，并允许根据当前的问题解决进度动态调整组员。
  
  9. AGENTVERSE 将团体问题解决过程分为四个关键阶段：专家招聘、协作决策、行动执行。
  
  10. AGENTVERSE 框架：受人类团队合作过程的启发，AGENTVERSE 为促进多个智能体在解决问题过程中的合作提供了一种有效的框架。它包括四个关键阶段：专家招聘、协作决策、行动执行和评估。
Method
- 作者是通过以下方法取得结果的：
  
  1. 提出人工智能领域的重要目标是创建智能自主的代理，以协助人类并在现实世界环境中有效运行。
  
  2. 利用大型语言模型（LLMs）的进步，特别是 GPT-4 模型的卓越能力，实现这一目标。
  
  3. 赋予自主代理更多人类类似认知机制，包括反思、任务分解和工具利用/创作。
  
  4. 探索自主代理合作的潜力，并将代理组织视为社会或团体。
  
  5. 提出 AGENTVERSE 框架，模拟人类团队合作过程，为促进多个智能体在解决问题过程中的合作提供了一种有效的框架。
  
  6. 通过量化实验证明，在需要不同能力的任务中，AGENTVERSE 使得多智能体组合的性能超过单个智能体。
  
  7. 在软件开发、咨询和 Minecraft 游戏等不同场景中部署 AGENTVERSE，以讨论 AGENTVERSE 的实际优势。
  
  8. 提出多智能体合作中的涌现行为，并讨论如何利用积极行为增强团队合作，同时防止负面行为的出现。
  
  9. 模拟人类群体问题解决过程，提出了 AGENTVERSE 框架。
  
  10. 使用马尔可夫决策过程（MDP）建模整个过程。
  
  11. 提出 AGENTVERSE 采用了自动化的方法来招募专家，以提高配置代理的可扩展性。
  
  12. 指定一个特定的自主代理作为\\\”招聘人员\\\”，根据当前的目标动态生成一套专家描述。
  
  13. 采用水平沟通和垂直沟通两种典型的沟通结构，进行协作决策。
  
  14. 使用两个不同的语言模型 GPT-3.5-Turbo-0613 和 GPT-4-0613 为 AGENTVERSE 提供动力。
  
  15. 使用多种数据集进行评估任务，包括会话、数学计算、逻辑推理和编程能力。
Result
- 以下是这篇论文中的实验取得的结果：
  
  1. 实验证明，在需要不同能力的任务（如数学推理、代码完成和回答生成）中，AGENTVERSE 使得多智能体组合的性能超过单个智能体。
  
  2. 在软件开发、咨询和 Minecraft 游戏等不同场景中部署 AGENTVERSE，以讨论 AGENTVERSE 的实际优势。
  
  3. 在多智能体合作过程中，智能体展现出一些新兴行为，如志愿者行为（提高团队效率）、遵从行为（调整自身行为以符合共同目标）和破坏性行为（偶尔导致不良和有害的结果）。进一步讨论如何利用积极行为增强团队合作，同时防止负面行为的出现。
  
  4. AGENTVERSE 是一种用于自主代理组的强化学习框架，旨在使这些代理组能够共同完成任务。实验证明，AGENTVERSE 可以比单个代理更有效地指导自主代理组共同完成任务。
  
  5. 对于会话任务，使用了两个数据集：一个是对话回应数据集 FED，另一个是 CommonGen-Challenge 数据集。
  
  6. 对于数学计算任务，使用了 MGSM 数据集的英语子集。
  
  7. 对于逻辑推理任务，使用了 BigBench 数据集中的逻辑网格谜题任务。
  
  8. 对于编程任务，使用了 Humaneval 数据集。
Conclusion
- 这篇论文探讨了自主代理在人工智能领域中的应用和潜力。以下是该论文的主要结论：
  
  1. 人工智能的目标之一是创建智能自主的代理，以协助人类更好地应对现实世界环境中的挑战。
  
  2. 大型语言模型（LLMs）的进步为实现这一目标提供了新的机会，特别是 GPT-4 模型在语言理解、视觉、编码和数学等领域的卓越能力。
  
  3. 利用 LLM 的能力，自主代理可以在完成任务时做出更有效的决策并采取高效的行动，实现前所未有的自主程度。
  
  4. 最近的研究赋予了自主代理更多的人类类似认知机制，包括反思、任务分解和工具利用/创作。
  
  5. 这些进步使我们更接近实现人工通用智能（AGI）的概念，使自主代理能够在更广泛的任务范围内进行泛化。
  
  6. 在实际场景中，复杂的任务可能需要个人之间的合作才能提高效率和有效性。
  
  7. 最近的研究集中在探索自主代理合作的潜力，并将代理组织视为社会或团体。
  
  8. AGENTVERSE 框架模拟了人类团队合作过程，为促进多个智能体在解决问题过程中的合作提供了一种有效的框架。它包括四个关键阶段：专家招聘、协作决策、行动执行和评估。
  
  9. 通过量化实验证明，在需要不同能力的任务（如数学推理、代码完成和回答生成）中，AGENTVERSE 使得多智能体组合的性能超过单个智能体。
  
  10. 在软件开发、咨询和 Minecraft 游戏等不同场景中部署 AGENTVERSE，以讨论 AGENTVERSE 的实际优势。
  
  11. 多智能体合作中的涌现行为包括志愿者行为（提高团队效率）、遵从行为（调整自身行为以符合共同目标）和破坏性行为（偶尔导致不良和有害的结果）。
  
  12. AGENTVERSE 采用了自动化的方法来招募专家，以提高配置代理的可扩展性。
  
  13. 对于给定的目标，会指定一个特定的自主代理作为\\\”招聘人员\\\”，类似于人力资源经理。
  
  14. \\\”招聘人员\\\”会根据当前的目标动态生成一套专家描述，然后根据这些不同的专家描述组成专家组。
  
  15. 考虑到多代理组的构成会根据评估阶段的反馈进行动态调整，这使得框架能够根据当前的状态（收到的奖励）来选择在后续轮次中做出更好决策的最有效的多代理组。
  
  16. 在决策阶段，代理们进行协作决策。许多研究已经探索了不同代理间沟通结构的有效性，包括水平沟通和垂直沟通。
  
  17. AGENTVERSE 通过量化实验和案例研究来证明其可以比单个代理更有效地指导自主代理组共同完成任务。
  
  18. AGENTVERSE 的自主代理由两个不同的语言模型提供动力：GPT-3.5-Turbo-0613 和 GPT-4-0613。
  
  19. AGENTVERSE 的评估任务包括需要会话、数学计算、逻辑推理和编程能力的任务。
  
  20. 对于会话任务，使用了两个数据集：一个是对话回应数据集 FED，另一个是 CommonGen-Challenge 数据集。
  
  21. 对于数学计算任务，使用了 MGSM 数据集的英语子集。
  
  22. 对于逻辑推理任务，使用了 BigBench 数据集中的逻辑网格谜题任务。
  
  23. 对于编程任务，使用了 Humaneval 数据集。
2023 年 11 月 22 日
创造者：解开大的抽象和具体推理通过工具创建的语言模型
大规模语言模型（LLMs）已在外部API的使用上取得了显著的进步，这些API可以作为各种任务的工具。然而，它们利用工具的能力受到适合API的可用性和隐含推理的不稳定性的限制，尤其是在同时进行计划推理和实际计算时。为了克服这些局限性，我们提出了CREATOR，一个新颖的框架，使LLMs能够通过文档和代码实现来创建自己的工具。CREATOR将LLM的能力分解为两个不同的阶段：抽象工具创建和具体决策执行，从而提高了LLM的性能。我们在两个已建立的基准上评估CREATOR：MATH，包括具有挑战性的数学竞赛问题，以及TabMWP，包括用于解决问题的各种表格内容。值得注意的是，CREATOR在这两个基准上的表现大大优于现有的链式思维（CoT）、程序式思维（PoT）和工具使用基线。此外，我们提出了一个新的数据集Creation Challenge，包括2K个不同的问题，以突出LLMs工具创建能力在有效解决这些问题方面的必要性和好处。进一步的研究发现，将LLMs作为工具创造者可以促进知识的转移，LLMs在工具创建能力方面表现出不同的水平，使它们能够灵活地应对各种情况。我们的研究为充分利用LLMs的潜力，朝着真正智能和适应性的AI系统迈进开辟了新的途径。

Introduction
- 近年来，大型语言模型（LLMs）的发展取得了显著的进步，其中包括 GPT-3（Brown 等，2020）、Codex（Chen 等，2021）、PaLM（Chowdhery 等，2022）、LLaMA（Touvron 等，2023）、Chat-GPT（OpenAI，2022）和最近的 GPT-4（OpenAI，2023）。这些模型在上下文学习、代码生成和各种 NLP 任务方面表现出色，将 LLM 的潜力推向了人工通用智能（Bubeck 等，2023）。尽管取得了这些巨大的成功，但现有的 LLM 仍然存在一些限制，包括无法识别或应对最新信息、经常无法提供清晰准确的数学结果，以及在不稳定地推理长链逻辑的情况下表现不稳定（Trivedi 等，2022;Komeili 等，2022;Patel 等，2021;Hendrycks 等，2021;Lu 等，2022b）。为解决这些问题，一些研究 line of research 已经为 LLM 配备了外部工具，以减轻它们的记忆负担并提高它们的专业知识（Qin 等，2023）。例如，将问答系统或网络搜索引擎等工具集成到 LLM 中，使它们能够在解决问题时学会何时何地访问外部资源（Nakano 等，2021;Schick 等，2023）。最近的研究还结合了额外的外部工具，例如 GitHub 资源、神经网络模型（如 Huggingface 库）、代码解释器（如 Python 解释器）等（Gupta 和 Kembhavi，2022;Surís 等，2023;Shen 等，2023;Liang 等，2023;Lu 等，2023）。这些工具需要 LLM 在利用工具解决复杂问题之前给出详细的计划。然而，工具增强的 LLM 仍然面临某些挑战（Chen 等，2022;Gupta 和 Kembhavi，2022;Schick 等，2023;Surís 等，2023），我们特别关注以下方面：（1）大多数现有工作倾向于关注有限数量的工具，而潜在的新任务范围几乎无限。因此，当面对新类型的问题时，很难找到一个适合其解决方案的现有工具。（2）语言模型用于确定最佳利用工具的当前推理过程固有地复杂。它涵盖了整个任务处理过程中的广泛规划，从而给模型造成了巨大的认知负担，并需要付出相当的学习成本。（3）关于工具使用的当前管道缺乏一个特定和自动的错误处理机制。这使得框架的准确性和鲁棒性有待改进。在本文中，我们试图从新颖的角度解决这个问题：而不是让 LLM 成为工具的使用者，我们使它们成为工具的创建者，以更准确、更灵活地解决特定问题。
  
  Motivated by this, we present our tool creation framework, CREATOR, which exploits LLMs’ ability to create tools and do rectifications based on current settings before answering the specific problem. As illustrated in Figure 1, we present the differences in pipelines between CREATOR and a general tool-using framework.
Related Work
- 1. Large Language Models (LLMs) have gained significant attention due to their performance in handling various NLP tasks.
  2. LLMs can generate high-quality texts and codes.
  3. Researchers focus on how to effectively prompt LLMs to generate reasoning to solve problems.
  4. Some researchers use case examples to propose chain-of-thought prompting.
  5. Other researchers extend prompting to zero-shot settings.
  6. Some researchers focus on using instructions to guide LLMs’ output and align behaviors with human expectations.
  7. These methods can be used to design instruction-following data from existing datasets.
  8. Researchers use instruction-tuning method to boost LLMs’ performances.
  9. Language models can be used in conjunction with external tools to help boost their ability.
  10. These tools can include scratch pad, search engine, QA system, and calculator.
  11. More recent studies integrate LLMs’ tool-using abilities into a pipeline to showcase their potential in task planning, tool calling, and result synthesis.
  12. Reasoning with programs (or codes) is an emerging field in NLP for leveraging programs to do complicated computational reasoning.
  13. The execution results from generated code can be used for LLM’s further use.
  14. Code generation in reasoning can achieve state-of-the-art performance on various math datasets.
  15. Researchers incorporate code interpreters (e.g. Python interpreter) as external tools.
  16. In CREATOR, we use code as the medium for tool creation instead of an external tool for calling.
  17. Our framework excels over PoT as we devise the tool creation stage, code rectification stage, and disentangle the logic in complex reasonings.
Design of CREATOR
- 重点：
  
  * CREATOR 框架利用 LLM 的工具创建能力通过引入特殊模块。
  * 该框架包括四个阶段：创建、决策、执行和纠正。
  * 在创建阶段，我们提供明确的指令和演示实例，以指导 LLM 生成与解决问题相关的适当工具。
  * 创建工具涉及两个关键方面：文档和实现。
  * 文档提供关于工具的效用、输入和输出的信息，而实现涉及实现工具的编码。
  * 在第二个阶段，即决策阶段，解释器根据文档和代码实现生成决策，并在需要时进行纠正。
  * 可以通过抽象思维能力创建工具，以减轻后来阶段的推理负担。
  * 这种方法可以显著减少后期阶段的推理负担，导致更可重用、可测试的工具，并可能提高性能。
Experiments
- 为了评估 CREATOR 的有效性，我们在两个 established 基准上进行了实验：MATH（Hendrycks 等人）和 TabMWP（Lu 等人，2022a）。虽然 CREATOR 适用于各种需要工具创建的任务，但我们特别考虑这两个数据集作为代表，以展示我们框架的优势。此外，我们还对 newly introduced 数据集，即 Creation Challenge 进行了实验，该数据集包含 2K 个 diverse 问题，无法使用现有工具或代码包来解决。这进一步证明了 LLM 的工具创建能力。
  
  Base Model. 我们选择 ChatGPT（gpt-3.5-turbo）作为 CREATOR 的基础模型，因为其在代码生成、决策制定和逻辑推理方面具有卓越的能力。为了确保公平性，我们还将在所有其他设置中使用 ChatGPT 作为基础模型，包括链式思维（CoT）、程序思维（PoT）和工具使用基线。所有实验的最大生成长度都设置为 512，选择温度为 0.3，鼓励确定性生成同时保持一定程度的多样性，特别是在创建工具的过程中。
  
  Dataset. 对于 MATH 和 TabMWP 数据集，我们都在测试集上对所有问题进行了数值答案（例如整数或分数）。这是因为其他答案形式（如表达式和分数）难以通过自动测试，程序的输出容易给出分数值，这进一步增加了自动评估的复杂性。然而，我们应用的测试集能够涵盖大约 80% 的问题，并且保持高多样性，因此我们认为我们的结果是代表性的。
  
  TabMWP 数据集涵盖了从一年级到八年级的 wide range of table information and problems of varying difficulty levels，涵盖数学竞赛问题，包括代数、计数和概率、几何、intermediate algebra、number theory、prealgebra 和 pre-calculus。每个领域都单独测试，计算加权平均分作为最终指标。对于 Creation Challenge 数据集，我们评估了 CREATOR 在所有 2K 个数据实例上的性能，并探讨了工具创建提示对 LLM 性能的影响。
  
  Baselines. 我们将 CREATOR 与三种基线进行比较，以证明其有效性：标准 LLM（w/o CoT 和 w/ CoT）：在 CoT 设置中，LLM 采用顺序推理以逐步解决这些问题。我们还包括没有 CoT 的标准 LLM 基线，其中 LLM 直接生成答案而无需运用推理过程。PoT：该 LLM 利用程序通过问题逐步推理。PoT 可以与 CoT 结合以提供答案。为了确保重点关注工具创建阶段，我们还将校正模块纳入 PoT，使其成为更强的基线。
  
  Tool Use: LLM 利用 WolframAlpha API 作为问题解决工具。WolframAlpha API 是一种专用数学计算工具。由于所有测试数据都需要某种程度的数值计算，使 LLM 能够利用 WolframAlpha 作为外部工具使用，对 LLM 的外部工具使用作为公平基线。
Further Discussions
- * 重点：
  
  * 本文介绍了语言模型（LLM）的工具创建能力，并通过使用案例研究展示了其灵活性和较低的推理负担。
  * 工具创建的主要目的是可重用性，通过将知识概念的抽象表示，实现一个工具可以帮助解决具有相同核心概念的各种场景中的问题。
  * 例如，一个用于情感分析的关键词提取工具可以用于文档分类和主题建模等场景。
  * 我们构建了一个由 300 个问题组成的较小数据集，以测试知识转移能力，并将这 300 个问题分为 100 组，每组三个问题共享相同的核心知识概念。
  * 我们手动编写种子数据，包括五个数据点的格式，以及从这些种子中创建的示例数据。
  * 我们使用 ChatGPT 作为基础 LLM，并保持所有详细设置与之前相同。
  * 我们首先在正常创造者框架下测试所有问题，然后测试在某个问题场景中创建的正确工具是否可以应用于其他两个场景，并再次测试 LLM 的性能。
  * 我们只计算 \”Pass@1\” 精度。
  * 结果分析显示，通过应用转移工具，准确率从 63.0% 提高到 78.3%。
  * 统计结果见表 5。
  * 我们将工具创建分为三个不同级别，以提供未来发展的指导和建议。
  * 这些级别展示了 LLM 如何利用现有工具和 API 创建满足不同需求的工具。
Conclusions and Future Work
- 总之，我们提出了工具创建（tool creation）这一概念，并实验性地设计了一个工具创建框架 CREATOR，以成功利用大型语言模型的工具创建能力解决各种问题解决场景。通过区分 LLMs 的抽象和具体推理能力，CREATOR 使得逻辑更清晰，整体性能得到提高。在已确立的基准测试以及新开发的创建挑战测试集的全面评估下，我们证明了 CREATOR 相对于现有方法（如 CoT、PoT 和工具使用方法）的优越性和不可替代性。本研究是对工具创建领域的一次初步探索，为这一领域的潜力提供了初步了解。为了进一步发展这一领域，未来的研究可以深入探讨 LLMs 的工具创建能力，通过进行涵盖更广泛任务和复杂场景的实验来检验这一能力。虽然我们的研究重点在于揭示 LLMs 工具创建背后的推理分离，但还有其他必要方面需要进一步调查。此外，需要研究方法来提高工具创建过程的效率，同时使其更符合用户的意图。通过开展这些未来的研究方向，我们预计本研究将奠定坚实的基础，激发更复杂 AI 系统利用 LLMs 工具创建能力的发展。此外，本研究表明了 LLM 功能的重要进步，有助于推动其在工具创建能力方面的潜力。
2023 年 11 月 22 日
WebCPM: Interactive Web Search for Chinese Long-form Question Answering
长文本问答 (LFQA) 旨在回答复杂的、开放式的问题，并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤：信息检索，寻找相关的支持事实，信息和合成，将这些信息整合成一个连贯的答案。在本文中，我们介绍了 WebCPM，这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索，它在实时与搜索引擎交互。类似于 WebGPT，我们开发了网页搜索界面。我们招募了标注者，使用我们的界面搜索相关信息，然后回答问题。同时，我们记录了标注者的网络搜索行为。我们总共收集了 5500 个高质量的问题 – 答案对，以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型，以模仿人类的网络搜索行为，并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程，它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。
- 作者通过以下方法取得了结果:
  
  1. 提出长文本问答 (LFQA) 问题，并定义了解决方案所需的两个核心要素：信息检索和信息合成。
  
  2. 使用检索 – 合成范式来解决 LFQA 问题。该范式包含两个核心要素：信息检索和信息合成。信息检索搜索外部知识源 (如互联网) 获取多种相关支持事实，信息合成将收集的事实整合成一个完整的答案。
  
  3. 针对传统 LFQA 范式的缺陷，作者提出了交互式网页搜索的方法，以支持人类进行更复杂的问题分解和解决。人类可以进行交互式网页搜索，通过与搜索引擎实时交互，将复杂的问题分解为多个子问题，并逐步解决。通过识别和浏览相关信息，人类可以加深对话题的理解，并通过提出后续问题或相关术语来微调搜索。这种迭代过程可以扩展搜索范围，并提高搜索结果的质量。
  
  4. 作者还提出了一个公共数据集和框架，以支持 LFQA 交互式网页搜索。该框架包括一个搜索模型和一个合成模型，它们可以模仿人类网页搜索行为进行信息检索和信息合成。作者通过选择最好的搜索和合成模型，将它们组合成一个整体 LFQA 管道，并与人类进行比较。人类评估表明，作者提出的管道在测试集中生成的答案有 32.5% 的时间不比人类差，对于超过 400 个中文字符的 DuReader 问题，作者提出的管道在 47.5% 的情况下生成的答案比 golden 标注的答案更好。
  
  5. 作者还展示了如何使用他们的框架来创建新的中文问题，并使用公共问答论坛作为问题来源。
- 以下是作者在这篇论文中所得出的结论:
  
  1. 交互式网页搜索可以提高 LFQA 解决方案的性能，因为人类可以进行网页搜索并逐步解决问题，而无需从头开始构建问题。
  
  2. 使用 GPT-3 等预训练语言模型进行网页搜索和信息合成的效果比传统的检索 – 合成范式更好，因为它们可以模拟人类搜索行为。
  
  3. 提供可访问的平台和公共基准对于探索 LFQA 交互式网页搜索领域至关重要。
  
  4. 需要进一步研究如何平衡交互式网页搜索和信息合成的性能，以提高 LFQA 解决方案的效率和准确性。
  
  5. 提供可访问的数据集和平台可以促进社区对 LFQA 领域的研究，并为其他研究领域提供测试平台。
2023 年 11 月 22 日
ProAgent: 构建具有主动合作能力的大型语言模型

在人机合作中，构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前，发展合作代理的方法主要依赖于学习方法，其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架，它利用大型语言模型（LLMs）来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色，能够动态适应其行为以提高与队友的协作效果。此外，ProAgent 框架具有高度的模块化和可解释性，便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外，在与人类代理模型合作时，其性能平均改进超过了 10%，比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示，请访问:

https://pku-proagent.github.io

框架的特点包括：

1. 利用大型语言模型（LLMs）：ProAgent 使用 LLMs 来预测队友的未来决策，并据此制定增强的计划。

2. 积极的代理：ProAgent 是一个积极的代理，可以主动适应队友的行为，以提高合作效果。

3. 高度的模块化和可解释性：ProAgent 框架具有高度的模块化和可解释性，可以方便地集成到各种协调场景中。

4. 卓越的性能：实验结果显示，ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时，其性能平均提高了 10% 以上，超过了当前的最佳方法 COLE。

5. 广泛的适用性：ProAgent 的改进在不同的场景中都得到了一致的观察，这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。

6. 可演示性：作者提供了一个在线演示，用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。

1. SayCan：这个方法主要是通过语言模型（LLM）来理解和解析当前任务的知识库，并将原始状态信息转换成语言为基础的状态描述，以便于 LLM 能够有效地理解和处理。在这个过程中，知识库和状态对齐是非常关键的。

2. ReAct：这个方法主要是在不对称优势布局中，通过展示有意不对称的布局，如洋葱、锅和供应点的位置，来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势，从而提高游戏的挑战性和趣味性。

3. DEPS：这个方法主要是通过记忆模块来存储整个流程中涉及到提示、推理过程和验证过程中的所有相关信息。这种积累的知识能够帮助玩家做出更明智的决策，并随着时间的推移调整行为。

4. RAP：这个方法主要是在强制协调布局中，玩家需要通过协作来成功完成汤的配送。但是，这些 ZSC 方法显示出了特定的惯例，如在两个 FCP 代理之间的交互中，他们总是在第一个工作台交换洋葱，在第三个工作台交换菜肴。这种惯例虽然对于自身协作以达到高分非常有效，但是对于与新代理的有效协调却带来了挑战。

5. Reflexion：这个方法主要是通过信念校正和技能验证来进一步验证和校正队友代理的技能信念，同时，所选技能也会被验证器验证，并在找到合法技能之前反复规划。

2023 年 11 月 22 日
OpenAI的迷失和微软的收获
大家好，今天，我们将讨论OpenAI的迷失和微软的收获。

OpenAI是一家非营利性人工智能研究公司，由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。OpenAI的使命是确保安全的人工通用智能的开发，并使全人类受益。

然而，OpenAI的非营利性结构却导致了其内部的权力斗争。OpenAI的董事会认为，首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通，因此在2023年11月将其解雇。

微软是OpenAI的主要合作伙伴之一，它获得了OpenAI的所有知识产权的永久许可，包括源代码和模型权重。微软还向OpenAI提供了大量的资金和计算资源。

OpenAI和微软的合作关系本应是互惠互利的，但由于OpenAI的内部问题，这种合作关系受到了影响。微软需要确保OpenAI能够继续开发其人工智能技术，而OpenAI则需要微软的资金和计算资源来支持其研究。

在OpenAI的董事会解雇了阿尔特曼之后，微软迅速采取行动，与阿尔特曼和OpenAI的其他高管达成了协议，将他们招致麾下。

微软的这一举动引起了业界的广泛关注。有人认为，微软这是捡了个大便宜，因为它获得了OpenAI的所有知识产权，而无需支付任何费用。也有人认为，微软的这一举动将进一步加剧人工智能领域的垄断。

无论如何，微软的这一举动都将对人工智能领域的格局产生深远的影响。

要点
- OpenAI是一家非营利性人工智能研究公司，由埃隆·马斯克、山姆·阿尔特曼等人在2015年创立。
- OpenAI的使命是确保安全的人工通用智能的开发，并使全人类受益。
- OpenAI的非营利性结构导致了其内部的权力斗争。
- OpenAI的董事会认为，首席执行官山姆·阿尔特曼没有始终如一地与董事会坦诚沟通，因此在2023年11月将其解雇。
- 微软是OpenAI的主要合作伙伴之一，它获得了OpenAI的所有知识产权的永久许可，包括源代码和模型权重。
- 微软还向OpenAI提供了大量的资金和计算资源。
- OpenAI和微软的合作关系本应是互惠互利的，但由于OpenAI的内部问题，这种合作关系受到了影响。
- 微软需要确保OpenAI能够继续开发其人工智能技术，而OpenAI则需要微软的资金和计算资源来支持其研究。
- 在OpenAI的董事会解雇了阿尔特曼之后，微软迅速采取行动，与阿尔特曼和OpenAI的其他高管达成了协议，将他们招致麾下。
- 微软的这一举动引起了业界的广泛关注。有人认为，微软这是捡了个大便宜，因为它获得了OpenAI的所有知识产权，而无需支付任何费用。也有人认为，微软的这一举动将进一步加剧人工智能领域的垄断。
- 无论如何，微软的这一举动都将对人工智能领域的格局产生深远的影响。
2023 年 11 月 22 日
破解AI模型速度瓶颈：一种全新的“分组查询注意力”方法

你是否曾经对人工智能模型的运算速度感到不耐烦，同时又希望它能保持高质量的预测结果？这可能听起来像是一个无法两全的问题，但科研人员们并没有停下探索的脚步。今天，我们要介绍的这篇研究报告，就给出了一个行之有效的解决方案。这篇研究名为 “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”，由来自Google Research的团队所撰写。他们提出了一种称为“分组查询注意力（Grouped-query attention, GQA）”的新方法，旨在解决Transformer模型中的一个关键问题，即如何在保持预测质量的同时，提高模型的运算速度。

首先，让我们理解一下这个问题的背景。在Transformer模型中，一个关键的计算过程就是自回归解码器推理。这个过程需要大量的内存带宽来加载解码器权重和所有注意力键值，这就大大限制了模型的运算速度。为了解决这个问题，研究者们提出了多查询注意力（Multi-query attention, MQA）方法，它只使用一个键值对来大幅度提高解码器推理的速度。然而，MQA方法可能会导致预测质量下降，而且也不太适合用于训练单独的模型以提高推理速度。

在这样的背景下，Google Research的团队提出了两个重要的贡献。首先，他们发现，可以使用少量的原始训练计算来将具有多头注意力（Multi-head attention, MHA）的语言模型检查点进行升级训练，使其能够使用MQA，这是一种非常成本有效的方法，可以同时获得高速的MQA和高质量的MHA检查点。其次，他们提出了分组查询注意力（GQA）的概念，这是一种在多头注意力和多查询注意力之间的插值方法，它为每组查询头部共享一个键和值头部。

GQA的工作原理是将查询头部分成若干组，每组共享一个键头和值头。具有G组的GQA被称为GQA-G。GQA-1（具有一个组，因此具有一个键和值头）等同于MQA，而具有等于头部数量的组的GQA-H等同于MHA。通过使用中间数量的组，GQA可以产生一个质量比MQA高，但速度比MHA快的插值模型。此外，对于大型模型，GQA的优势更加明显，因此，我们期待GQA能在大型模型中提供一个特别好的权衡方案。

在实验部分，研究者们使用了基于T5.1.1架构的所有模型，并对T5 Large和XXL的多头注意力版本，以及使用多查询和分组查询注意力的升级版T5 XXL进行了主要实验。实验结果表明，使用GQA的T5-XXL模型在各种不同的数据集上，包括CNN/Daily Mail, arXiv, PubMed, MediaSum, 和 MultiNews等新闻摘要数据集，以及WMT英德翻译数据集和TriviaQA问答数据集上，都保持了与多头注意力模型相近的质量，同时又具有与多查询注意力模型相近的速度。

在AI领域，我们一直在寻找提高效率和质量的方法，而GQA的出现无疑为我们提供了一个新的可能。它不仅提高了模型的运算速度，而且还成功地保持了预测的质量。这使得GQA成为了提高AI模型性能的一种有力工具，我们有理由期待，这种方法将在未来的AI应用中发挥更大的作用。

总的来说，这项研究的重要性在于，它不仅提供了一种提高AI模型速度的有效方法，而且这种方法还能保持模型的预测质量。这使得我们可以在实际应用中实现更快、更准确的AI模型，从而在各种场景中提供更好的服务。

这就是今天的分享，希望你们能从中获取到有用的信息。我们将继续关注更多的人工智能研究，并与大家分享。感谢你们的倾听，我们下次见！

2023 年 11 月 21 日
从 LLAMA 到 LLAMA2：开源模型的进化之路

大家好，欢迎来到我的博客！今天，我们要聊一聊有关两个开源语言模型的故事，它们分别是 LLAMA 和 LLAMA2。正如在科技世界里常见的，这两个模型的出现，都代表着一次重要的突破和进化。那么，它们是如何超越自身，再次突破技术瓶颈的呢？让我们一起探索吧。

1. LLaMA：以开放和高效为目标的基础语言模型

首先，我们来看看第一个主角 LLAMA。它仅仅使用公开可用的数据（数量高达数万亿 tokens）就训练出了效果超越 GPT-3 和 Chinchilla-70B PaLM-540B 的模型。最让人惊奇的是，它的体积比 GPT-3 小十倍，但效果更好。这是怎么做到的呢？

LLaMA 的开发者们发现，给定一定的计算量预算，我们可以通过在较小的模型上训练更多的数据来获取最好的效果。这就是 LLAMA 所依据的尺度原则。

为了训练 LLAMA，开发者们使用了多种来源的预训练数据，包括英文 CommonCrawl, Github, Wikipedia 等。每一种数据都经过了严格的清洗和筛选，以确保模型训练的质量。在训练时，每个 token 只训练一次，除了 Wikipedia 和 Books，训练了两次。

LLaMA 的模型结构基于 transformer，在 GPT3、PaLM、GPTNeo 的基础上做出了改良。其中包括使用 RMSNorm 进行 Pre-normalization，使用 SwiGLU 替换 ReLU 作为激活函数，舍弃绝对位置编码，使用旋转位置编码等一系列创新手段。

2. LLaMa 2：基础和微调并进的聊天模型

接下来，我们来了解一下 LLAMA 的升级版本——LLAMA2。虽然 LLAMA1 的效果已经非常优秀，但是与闭源的“产品级”模型相比，如 ChatGPT、BARD、Claude，仍有一定的差距。因此 LLAMA2 的目标就是要尽可能地提升模型的性能，使其更符合人类的偏好。

LLAMA2 的训练数据量增加了40%，达到了2万亿 tokens。同时，上下文长度翻倍，引入了 grouped-query attention 的新技术。这些改变使得 LLAMA2 在长数据的效果明显提升，而在短数据上的性能则没有下降。

LLAMA2 在微调上也做了很多工作。它引用了 LLAMA1 中的 SFT 数据集设置，对模型进行了精细的调整。在收集数据时，采用了课程策略，逐渐将问题复杂化，使得模型能够更好地适应和处理各种问题。

结语

总的来说，LLAMA 和 LLAMA2 的出现，代表了开源模型的重大进步。他们的成功，得益于严谨的数据处理，创新的模型结构，以及精细的模型调整。这些都是我们在探索人工智能的道路上，值得学习和借鉴的经验。

希望这篇博客能给你带来一些启发和灵感。我们下次再见！

2023 年 11 月 21 日

月度归档： 2023 年 11 月

1. 引言

2. FlashFFTConv算法原理

3. FlashFFTConv的优势

4. FlashFFTConv的应用领域

5. 结论

参考文献

1. 什么是WebAuthn？

2. WebAuthn的工作原理

2.1 注册阶段

2.2 身份验证阶段

3. WebAuthn的优势和应用场景

4. 使用WebAuthn的注意事项

什么是WebAuthn？

WebAuthn的工作原理

WebAuthn的优势

总结

Zephyr-7B-β：小巧却强大

Zephyr-7B-β：更多的可能性

Zephyr-7B-β：未来的挑战

Zephyr：直接蒸馏语言模型对齐

Zephyr-7B-beta的变革

低成本训练Zephyr

Lora训练

总结

MathJax：变革者

MathJax：教育者

MathJax：顾问

MathJax：艺术家

MathJax：无障碍和可重用

结语

要点

1. LLaMA：以开放和高效为目标的基础语言模型

2. LLaMa 2：基础和微调并进的聊天模型

结语