博客

🔍 从注意力到激活：揭开大语言模型的神秘面纱
🎯 引言

在人工智能领域，Transformer模型已然成为了风靡全球的明星，无论是在自然语言处理、图像识别还是蛋白质结构预测等领域，它都展现了惊人的实力。然而，尽管这些模型在实际应用中表现优异，其内在的运作机制依然充满了许多未解之谜。正如某位哲人所说，”科学的进步源于发现那些看似无关紧要的小异常。” 我们的研究正是基于这样一种科学精神，发现并探讨了两种大型自回归Transformer模型（如GPT、Llama等）中普遍存在的奇异现象：
1. 🚩 首个token在注意力机制中的统治地位：无论输入是什么，模型似乎都对序列中的第一个token格外“上心”。
2. 🛑 隐藏状态中的异常激活值：在某些特定的特征通道中，激活值远远超出其他值，形成了“激活值巨兽”。
这些现象不仅仅是学术上的好奇心所驱动，它们在实际应用中也有重要的影响。尤其是在模型量化方面，异常激活会导致模型性能的显著下降。于是，我们提出了两种创新方法来解决这些问题：Softmax-1 和 OrthoAdam。它们不仅消除了这些现象，还提高了模型在量化过程中的鲁棒性。

接下来，让我们一起深入探讨这些现象的成因与解决方法。

🧠 第一现象：首个Token为何如此“耀眼”？

📊 现象描述

在自回归Transformer模型中，注意力机制的作用尤为关键。它决定了模型在处理每个输入时，应该“关注”哪些信息。然而，通过对多个流行的大型语言模型（如GPT-2、Llama等）进行研究后，我们发现了一个有趣且反常的现象：在98%的注意力头中，模型的查询token最关注的总是序列中的第一个token。这可真是令人费解！首个token，通常是一个特殊符号（如<bos>，表示序列开始），理论上并没有太多有价值的语义信息。那么，为什么它总是吸引着模型的“目光”呢？

🧐 原因分析

我们首先尝试排除一些可能的原因，包括位置编码、激活函数、特征归一化等。经过逐一排查，最终我们发现罪魁祸首是Softmax函数和因果掩码的结合。简而言之，由于因果掩码的存在，注意力机制必须确保每个查询token只能关注之前的key token，而第一个token是唯一一个能被所有查询token关注的key，于是它自然就成了“最受宠”的那个。

这种现象其实暗示了一种“无效注意力”现象：当某个注意力头没有找到与其相关的信息时，它便会默默地选择第一个token作为“默认选项”，这无疑浪费了模型的计算能力。

💡 解决方案：Softmax-1

针对这个问题，我们提出了一种对Softmax函数的简单改进，称为Softmax-1。其核心思想是允许注意力得分不再严格地相加为1，而是引入了一个“注意力池”，让模型可以自由选择将注意力分配到某个token，也可以选择“无处不关注”。新的Softmax-1公式如下：

通过这一改进，模型不再被迫将注意力集中在第一个token上，注意力机制得到了更大的灵活性。

🧪 实验验证

我们在GPT-2模型上进行了实验，对比了使用标准Softmax和Softmax-1的注意力图。结果显示，使用Softmax-1后，第一个token的注意力比例从之前的65%大幅下降到了3.3%。更重要的是，这一改动并没有影响模型的训练稳定性或最终性能。
```
graph TD;
  A[标准 Softmax] -->|65% 注意力| B[首个 Token];
  C[Softmax-1] -->|3.3% 注意力| D[首个 Token];
```
🔥 第二现象：隐藏状态中的“激活值巨兽”

📊 现象描述

除了首个token的注意力问题外，我们还发现了另一个有趣的现象：在Transformer模型的隐藏状态中，在某些特定的特征通道上，激活值会异常地高出其他值几个数量级。这些“激活值巨兽”不仅仅出现在第一个token上，而是横跨整个序列，影响模型的多个层次。

这些异常激活值的存在并非只是视觉上的不美观，它们在模型的量化过程中带来了巨大的挑战。量化是一种常见的模型压缩技术，通过将模型的权重和激活值近似为较低精度的表示来减少计算开销。然而，异常激活值会扩大量化范围，从而导致非异常值的有效位数减少，进而导致模型性能的显著下降。

🧐 原因分析

通过对多种优化器的对比实验，我们发现异常激活值的出现与自适应优化器（如Adam）有着密切的关系。Adam优化器通过指数滑动平均来追踪梯度的一阶和二阶矩，这种机制在某些特定条件下会导致特定通道的激活值异常增大。

💡 解决方案：OrthoAdam

为了消除这些异常激活值，我们提出了一种全新的优化器——OrthoAdam。它的核心思想是通过正交矩阵对梯度进行变换，以避免梯度更新集中在某些特定的参数上，进而防止激活值的异常增长。OrthoAdam的算法流程如下：
```
Algorithm: OrthoAdam
Input: 学习率 $\eta$, 一阶矩衰减率 $\beta_1$, 二阶矩衰减率 $\beta_2$, 数值稳定项 $\epsilon$
Output: 优化后的模型参数 $\theta$

1. 初始化时间步长 t = 0，参数向量 $\theta_0$，一阶矩 $\hat{m}_0 = 0$，二阶矩 $\hat{v}_0 = 0$
2. 随机生成正交矩阵 Q
3. Repeat until convergence:
   a. 计算梯度 $g_t = \nabla f_t(\theta_{t-1})$
   b. 应用正交变换 $\hat{g}_t = Q \cdot g_t$
   c. 更新一阶矩和二阶矩
      $\hat{m}_t = \beta_1 \hat{m}_{t-1} + (1 - \beta_1)\hat{g}_t$
      $\hat{v}_t = \beta_2 \hat{v}_{t-1} + (1 - \beta_2)\hat{g}_t^2$
   d. 计算偏差修正后的梯度 $\hat{s}_t = \hat{m}_t / (\sqrt{\hat{v}_t} + \epsilon)$
   e. 将修正后的梯度变换回模型参数空间 $s_t = Q^T \cdot \hat{s}_t$
   f. 更新参数 $\theta_t = \theta_{t-1} - \eta s_t$
```
🧪 实验验证

通过使用OrthoAdam，我们成功地将异常激活值的峰度（kurtosis）从1657降到了3.1。这意味着模型的激活值分布更加均匀，极大地改善了模型的量化性能。在4位权重量化的实验中，模型的困惑度惩罚从原来的3565下降到了0.3。
```
pie
    title 激活值峰度对比
    "标准 Adam" : 1657
    "OrthoAdam" : 3.1
```
🧩 实际应用中的挑战与机遇

虽然首个token的注意力统治和隐藏状态的异常激活值看似只是理论上的问题，但它们在实际应用中会带来不少挑战。尤其是在模型量化的场景下，异常激活值会导致模型性能的大幅下降。传统的解决方案往往需要复杂的混合精度分解或是对权重和激活值的复杂缩放策略。而我们的Softmax-1和OrthoAdam方法不仅简单有效，还能让模型在最基本的量化方法下保持良好的性能。

量化实验结果

我们在GPT-2和Llama模型上测试了8位和4位量化方案，实验结果表明，使用Softmax-1和OrthoAdam的模型在量化后的性能显著优于使用传统Softmax和Adam优化器的模型。
```
表1: 不同模型在量化前后的困惑度对比 (PPL越低越好)

模型            | 参数量  | 量化前PPL | 8位量化PPL | 4位量化PPL
---------------|--------|----------|------------|-----------
GPT2-Small     | 137M   | 37.8     | 43.5       | 68.5
GPT2-Medium    | 350M   | 28.8     | 32.3       | 33.9
Llama2-7B      | 6.7B   | 7.7      | 21.5       | 19.7
GPT2 (Ours)    | 350M   | 16.3     | 16.5       | 17.1
```
🔚 结论

通过对Transformer模型中两个奇异现象的深入探讨，我们提出了两个简单而有效的解决方案：Softmax-1和OrthoAdam。这些方法不仅解决了首个token的注意力统治和隐藏状态的异常激活值问题，还显著提升了模型在量化后的性能表现。我们的研究不仅为深入理解Transformer模型提供了新的视角，也为模型优化和压缩技术带来了实际的应用价值。

📚 参考文献
1. Elhage, N., et al. (2022). “Transformers Revisited.”
2. Dettmers, T., et al. (2022). “LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale.”
3. Touvron, H., et al. (2023). “LLaMA: Open and Efficient Foundation Language Models.”
4. Kingma, D. P., & Ba, J. (2015). “Adam: A Method for Stochastic Optimization.”
5. Vaswani, A., et al. (2017). “Attention is All You Need.”
2024 年 10 月 25 日
🎯 选择性注意：让Transformer精准聚焦的秘密武器
《Selective Attention Improves Transformer》

📜 引言：在繁忙的信息洪流中寻找关键点

在现代深度学习的世界里，Transformer几乎无处不在。不论是在语言模型、图像处理，还是文本生成任务中，Transformer都展现了卓越的表现。然而，这个“大块头”模型也有它的烦恼——过多的上下文记忆导致了性能的下降。就像在一堆无关紧要的谈话中寻找有意义的对话，Transformer有时很难分辨哪些信息才是关键。

这就引出了选择性注意（Selective Attention）机制的登场。选择性注意机制就像是一个聪明的“过滤器”，能够帮助Transformer集中精力处理那些真正有用的信息，从而提高模型的性能，并显著减少内存和计算需求。

🤔 问题的起源：Transformer的“记忆负担”

Transformer模型的工作方式类似于一个拥有完美记忆的侦探：它会将所有遇到的信息都保存在上下文缓冲区中，随时准备调用。然而，并不是所有信息都值得保留。就像我们在生活中，有些信息一旦被理解，就可以“遗忘”了。所以，Transformer面临的挑战在于：它需要记住哪些信息？又该忘记哪些？

正如文献所述，标准的Transformer保留了所有的历史信息，这不仅增加了计算开销，还容易导致无关信息干扰模型的判断。就好比在一场复杂的会议中，所有的发言都被记录下来，你需要从中提取出最核心的观点，过程不仅耗时，还容易出错。

🧠 选择性注意：高效的“信息筛选器”

选择性注意机制的核心思想是让模型学会自动“忘记”那些不再有用的信息。传统的注意力机制会计算所有上下文信息的相关性，而选择性注意的巧妙之处在于，它允许一个token决定另一个token是否仍然重要。如果某个token被认为已经不再相关，未来的token就可以安全地忽略它。

这种机制可以类比为一个高效的会议记录员，随时判断哪些内容是会议的关键，哪些可以被忽略，从而大大提高了效率。

✨ 选择性注意的工作原理

简而言之，选择性注意通过生成一个N×N的软掩码矩阵$S$来表示每个token之间的掩盖关系。然后，积累这些掩码信息到一个新矩阵$F$中，并在最终计算注意力得分前，对注意力logits减去这个掩码矩阵$F$。公式如下：

$$\text{SelectiveAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} – F \right) V$$

这个过程就像是给注意力机制加上了一个“有选择性的眼镜”，帮助模型更专注于那些真正重要的上下文信息。

🧩 动机：变量赋值与语言建模中的应用

为了更好地理解选择性注意的作用，文献中给出了两个有趣的例子：变量赋值任务和语言建模任务。

在变量赋值任务中，输入是一些变量的重复赋值操作，模型需要输出某个变量的最新值。例如，给定输入y=7; x=1; x=3; z=5; x=?，模型需要输出3。选择性注意在这里的作用是，当模型遇到新的赋值时，它会自动屏蔽掉之前对该变量的赋值，从而只关注最新的值。

在语言建模中，选择性注意同样显示出了它的威力。比如在处理“Bar, ##ack, Obama”这样的序列时，模型一开始可能会对“Bar”感到困惑，因为它有多重含义。然而，当后续的token“##ack”和“Obama”出现时，模型可以利用选择性注意机制屏蔽掉“Bar”的歧义，只保留和“Obama”相关的信息。

📊 实验结果：选择性注意大显身手

文献中的实验结果表明，选择性注意大幅提升了模型的性能。在C4数据集上，配备选择性注意的模型在相同上下文长度下的困惑度（perplexity）明显优于标准Transformer。同时，选择性注意还让模型在减少内存和计算需求方面表现出色。例如，一个使用选择性注意的Transformer在上下文长度为512、1024和2048时，分别减少了16倍、25倍和47倍的内存需求，而模型的验证困惑度保持不变。

不仅如此，文献还指出，选择性注意模型在HellaSwag基准测试中的表现也优于没有选择性注意的模型。随着模型的增大，选择性注意带来的优势也愈加明显。
```
graph TD;
A[标准Transformer] --> B[2倍参数和头数] --> C[选择性注意Transformer性能相当]
```
该图表展示了标准Transformer与选择性注意Transformer的性能对比。可以看到，选择性注意模型的性能相当于拥有2倍参数和头数的标准Transformer。

✂️ 上下文剪枝：进一步优化推理效率

选择性注意不仅提升了模型的性能，还通过上下文剪枝机制优化了推理效率。上下文剪枝的思想很简单：一旦某个token被选择性注意屏蔽掉，它就可以从上下文缓冲区中移除，不再参与未来的注意力计算。这就像是在会议中，已经讨论过并解决的问题可以从记录中删除，避免占用不必要的空间和时间。

通过上下文剪枝，文献中的实验表明，内存和计算需求都得到了显著的降低。例如，在上下文长度为512的情况下，选择性注意能够减少5倍的内存需求，而在上下文长度为2048时，这一减少幅度甚至达到了8倍。

🔮 结论与展望：选择性注意的未来

选择性注意为Transformer模型引入了更高效的注意力机制，不仅提升了性能，还大幅减少了内存和计算开销。它的无参数设计使得它可以轻松地集成到现有的Transformer架构中，并在语言建模、变量赋值等任务中显示出色的表现。

然而，未来的探索空间依然广阔。选择性注意当前主要用于解码器模型，未来可以尝试将其应用于编码器模型。此外，如何在训练过程中进一步优化上下文剪枝，如何在大规模预训练模型中应用选择性注意，都是值得深入研究的方向。

📚 参考文献
1. Vaswani, A., et al. (2017). Attention is all you need.
2. Leviathan, Y. (2022). The Art of Transformer Programming.
3. Plebanek, D. J., & Sloutsky, V. M. (2017). Costs of selective attention: When children notice what adults miss.
4. Shazeer, N. (2019). Fast transformer decoding: One write-head is all you need.
5. Pope, R., et al. (2022). Efficiently scaling transformer inference.
2024 年 10 月 25 日
强制的“正能量”

2024 年 10 月 24 日
社会学习中的语言：智能体如何通过语言合作解决问题
引言

人类语言不仅是沟通工具，更是我们认知世界、解决问题的重要方式。科学家们一直好奇，语言是如何在群体中演化出来的？这种演化是否可以在人工智能系统中被模拟？近期，来自德国达姆施塔特工业大学和波恩大学的研究者们提出了一个新颖的框架，旨在理解语言在人工智能（AI）智能体之间的演化及其对任务完成的影响。这项研究不仅揭示了语言在智能体之间的共同抽象作用，还展示了语言如何帮助智能体更好地完成任务并提升其泛化能力。

问题背景

在生物和人工智能系统中，语言的形成与演化是一个复杂的过程。自然界中的神经系统不仅需要应对环境挑战，还需要在社会群体中有效地传递信息。在人类和动物中，这种信息传递往往伴随着对复杂概念的简化和抽象。例如，蜜蜂的“摇摆舞”通过简单的舞蹈动作传递出复杂的环境信息，如食物的位置。

为了在人工智能系统中模拟这一过程，研究人员提出了一个“老师-学生”框架。在这个框架中，一个被称为“老师”的智能体通过传递简化的信息帮助“学生”智能体更好地完成任务。研究者希望通过这个框架，揭示语言在智能体如何通过内部抽象和共享信息来提高任务性能。

研究方法

研究团队使用了强化学习（Reinforcement Learning, RL）技术来训练智能体，并设计了一个网格迷宫任务。在每个任务中，“老师”智能体首先完成迷宫任务，生成一个状态-动作值函数（即Q矩阵），并通过一个压缩的低维信息空间（类似自然语言的特征）将任务信息传递给“学生”智能体。“学生”智能体则需要根据这些信息来完成相同的迷宫任务。

为了模拟自然语言的特性，研究人员采用了稀疏自编码器（Sparse Autoencoder, SAE）来压缩高维任务信息。自编码器将老师生成的Q矩阵转换为一个简化的“消息”，并将其传递给学生智能体。通过这种方式，学生智能体可以利用老师的信息来完成自己未曾遇见的新任务。

主要发现
1. 低维表示与泛化能力：研究发现，通过老师传递的信息，学生智能体能够更快、更准确地完成任务，并且能够有效地应对它未曾见过的任务。这表明，语言作为一种低维的共同表示形式，能够帮助智能体泛化不同的任务。
2. 反馈机制的重要性：当老师智能体根据学生的表现调整传递的信息时，学生的任务完成率显著提高。这说明，双向的信息反馈能够优化信息编码过程，使语言更加高效。
3. 语言结构的演化：研究还表明，随着任务的复杂性增加，语言的结构也变得更加复杂。通过分析语言的嵌入空间，研究人员能够揭示出语言中的层次结构，例如，迷宫中的墙壁位置和目标位置如何影响学生智能体的策略选择。
研究意义

这项研究为理解语言在人工智能系统中的形成与发展提供了新的视角。通过模拟老师和学生之间的任务传递过程，研究人员展示了语言如何在智能体之间自然演化，并提升了其任务泛化能力。这不仅为多智能体系统的设计提供了新的思路，也为未来在神经科学和认知科学领域的研究提供了启示。

未来展望

未来的研究可以进一步扩展这个框架，探讨更多复杂的任务和多样化的语言模型。例如，研究人员可以探索如何通过序列任务来形成“可组合的”语言结构，类似于人类语言中的语法和句法。此外，随着深度学习和强化学习技术的不断进步，这一框架可以被应用于更复杂的场景，例如机器人协作、自动驾驶等。

结论

通过这项研究，研究人员成功地展示了语言在人工智能智能体之间的演化过程及其对任务完成的影响。语言不仅仅是交流的工具，它更是一种能够帮助智能体在复杂环境中泛化任务的强大工具。随着这一研究领域的不断发展，我们有望看到更多关于语言演化和智能体合作的新发现。

参考文献
1. Wieczorek, T. J., Tchumatchenko, T., Wert-Carvajal, C., & Eggl, M. F. (2024). A framework for the emergence and analysis of language in social learning agents. Nature Communications, 15, 7590. https://doi.org/10.1038/s41467-024-51887-5
2024 年 10 月 22 日
【闪卡】TypeScript

尝试制作一批面向记忆的闪卡，用于TypeScript学习！

2024 年 10 月 13 日
Helia FAQ 摘要 🤔
在这里，我们将探讨Helia的相关问题，帮助您更好地理解这个现代化的IPFS实现及其与其他项目的关系。

👩‍👧 Helia与js-IPFS的关系是什么？

Helia是IPFS的一种新实现，旨在提供更模块化和轻量级的解决方案。js-IPFS曾是IPFS在JavaScript中的实现，但随着Helia的推出，js-IPFS将逐步被替代。Helia借鉴了js-IPFS的一些组件（如libp2p和bitswap），但重新设计了API，以便更好地支持分布式应用程序的开发。

🤝 Helia如何保证与Kubo及其他IPFS实现的兼容性？

Helia的每个组件都配备了互操作性测试套件，确保与其他IPFS实现（特别是Kubo）的兼容性。这些测试在持续集成（CI）过程中自动运行，以确保每个拉取请求和发布版本的兼容性。

🏎️ 性能与其他实现（包括js-IPFS）相比如何？

根据现有的基准测试，Helia在多个方面的性能表现都非常出色。Helia的基准测试套件会涵盖数据传输等功能区域，以便进行全面的性能分析。

🗑️ 垃圾收集机制是什么？

Helia使用引用计数机制进行垃圾收集，这种方法比js-IPFS或Kubo采用的其他方式更具可扩展性。

🙃 为什么考虑使用Helia而不是js-IPFS？

Helia提供了一个全新的视角，重新审视JavaScript中完整功能的IPFS实现。与js-IPFS不同，Helia并不受限于Kubo的API，可以自由创新，满足JavaScript特有的使用场景。

🤷 为什么选择Helia而不是kubo-rpc-client？

Helia允许您将IPFS节点嵌入到应用程序中，从而实现最低延迟和最佳性能。与需要运行单独的Kubo守护进程的kubo-rpc-client不同，Helia简化了部署任务，并为用户提供了使用相同技能集监控和调优节点的能力。

🧭 Helia有哪些内容和对等路由机制？

Helia支持所有现有的libp2p内容和对等路由机制，包括@libp2p/kad-dht、@libp2p/ipni-content-routing和@libp2p/reframe-content-routing等。

🚌 Helia支持哪些数据传输方式？

Helia支持所有现有的libp2p传输方式，例如@libp2p/webtransport、@libp2p/webrtc和@libp2p/websockets等。

👋 Helia如何“识别”自己？

Helia在libp2p实例中标识自身，默认情况下使用以下字符串进行标识：
```
helia/x.x.x libp2p/x.x.x UserAgent=$USER_AGENT
```
其中$USER_AGENT是当前Node.js版本或浏览器的用户代理字符串。

通过解答这些常见问题，希望能帮助您更好地了解Helia的功能和优势。如果您有更多问题，欢迎查阅Helia Wiki获取详细信息！
2024 年 10 月 12 日
Helia：现代化的IPFS实现 🚀
在当今这个数据如潮水般涌来的时代，如何高效、灵活地管理这些数据成为了一个重要的挑战。Helia应运而生，它是一款轻量级、模块化且现代化的TypeScript实现，专门为JS和浏览器环境设计的IPFS（InterPlanetary File System）解决方案。无论你是开发者还是好奇的用户，Helia都为你提供了一个友好的起点。

🌟 使用Helia

使用Helia非常简单。首先，你需要创建一个Helia节点。以下是如何将字符串数据添加到Helia节点的示例代码：
```
import { createHelia } from 'helia'
import { strings } from '@helia/strings'

const helia = await createHelia()
const s = strings(helia)
const myImmutableAddress = await s.add('hello world')
console.log(await s.get(myImmutableAddress))
// 输出：hello world
```
通过上面的代码，你可以轻松地将“hello world”存储到Helia节点中，并在需要时取出它。

🌃 JSON数据的存取

Helia不仅支持字符串，还可以处理更复杂的数据结构，比如JSON对象。使用@helia/json模块，你可以轻松地将JavaScript对象添加到Helia节点中：
```
import { createHelia } from 'helia'
import { json } from '@helia/json'

const helia = await createHelia()
const j = json(helia)
const myImmutableAddress = await j.add({ hello: 'world' })
console.log(await j.get(myImmutableAddress))
// 输出：{ hello: 'world' }
```
这段代码展示了如何将一个简单的对象存储到Helia中，并随时检索出来。

🌠 DAG-JSON：链接对象的存储

如果你需要存储链接对象，可以使用@helia/dag-json模块。这个模块允许你将对象的引用作为CID（内容标识符）存储。以下是一个示例：
```
import { createHelia } from 'helia'
import { dagJson } from '@helia/dag-json'

const helia = await createHelia()
const d = dagJson(helia)
const object1 = { hello: 'world' }
const myImmutableAddress1 = await d.add(object1)
const object2 = { link: myImmutableAddress1 }
const myImmutableAddress2 = await d.add(object2)

const retrievedObject = await d.get(myImmutableAddress2)
console.log(retrievedObject)
// 输出：{ link: CID(baguqeerasor...) }
console.log(await d.get(retrievedObject.link))
// 输出：{ hello: 'world' }
```
在这个例子中，我们首先添加了一个对象，然后创建了一个包含该对象链接的新对象。这样就实现了对象之间的引用关系。

🌌 DAG-CBOR：简洁的二进制表示

与DAG-JSON类似，@helia/dag-cbor模块使用Concise Binary Object Representation（CBOR）来存储对象。这种方法在存储效率上有显著优势，特别是当你需要处理大量数据时。以下是示例代码：
```
import { createHelia } from 'helia'
import { dagCbor } from '@helia/dag-cbor'

const helia = await createHelia()
const d = dagCbor(helia)
const object1 = { hello: 'world' }
const myImmutableAddress1 = await d.add(object1)
const object2 = { link: myImmutableAddress1 }
const myImmutableAddress2 = await d.add(object2)

const retrievedObject = await d.get(myImmutableAddress2)
console.log(retrievedObject)
// 输出：{ link: CID(baguqeerasor...) }
console.log(await d.get(retrievedObject.link))
// 输出：{ hello: 'world' }
```
通过这些示例，您可以看到Helia的强大之处。它不仅提供了灵活的数据存储解决方案，还通过不同的模块满足各种需求。

🔒 自定义哈希器

在Helia中，内容的不可变地址（CID）是由哈希器决定的。默认情况下，Helia使用sha2-256多哈希技术，但您可以根据需要选择其他哈希器。这对于需要特定属性的应用程序尤其有用。以下是如何使用不同哈希器的示例：
```
import { createHelia } from 'helia'
import { dagCbor } from '@helia/dag-cbor'
import { sha512 } from 'multiformats/hashes/sha2'

const helia = await createHelia()
const d = dagCbor(helia)
const object1 = { hello: 'world' }
const cidWithSHA256 = await d.add(object1)
const cidWithSHA512 = await d.add(object1, { hasher: sha512 })

console.log(cidWithSHA256)
// 输出：CID(bafyreidykglsfhoixmivffc5uwhcgshx4j465xwqntbmu43nb2dzqwfvae)
console.log(cidWithSHA512)
// 输出：CID(bafyrgqhai26anf3i7pips7q22coa4sz2fr4gk4q4sqdtymvvjyginfzaqewveaeqdh524nsktaq43j65v22xxrybrtertmcfxufdam3da3hbk)
```
🐾 下一步

想要更深入地了解Helia的使用？请查看Helia示例库，里面涵盖了各种用例。如果你觉得还有什么遗漏的地方，可以按照贡献指南创建一个PR。

📗 项目文档与API文档

有关Helia的详细信息和API文档，请访问项目文档和API文档。

📣 项目状态与贡献

Helia v1于2023年3月发布，开发团队正在积极进行性能改进和bug修复。如果你对项目感兴趣，我们欢迎你的参与！请查看我们的贡献文档了解更多信息。

🛍️ 知名用户

想知道有哪些项目正在使用Helia？请查看使用Helia的项目。

🌞 许可证信息

Helia在Apache 2.0和MIT许可证下发布，详情请查看相关许可证文件。

通过Helia，您可以轻松地在分布式网络中存储和检索数据，享受现代化的开发体验。快来体验吧！
2024 年 10 月 12 日
全网最全最新的即插即用模块
🌟 目前进度20％

包括卷积、注意力机制、下采样、特征融合模块等，持续更新中~ 想了解更多详情吗？关注我们的公众号【ai缝合大王】和B站【ai缝合大王】吧！此外，我们还有一个模块分享和缝合交流的QQ群，群号是：834187608。

📷 主要更新内容

目前我们主要更新的是二维图像模块，适用于所有二维图像任务，包括但不限于：
- 图像分类
- 图像分割
- 目标检测
- 超分辨率重建
- 图像去雾
- 暗光增强
未来，我们还会陆续更新3D模块和1D模块，敬请期待！

🖼️ 精彩图片展示

结语

感谢大家的关注和支持！我们会继续努力，为大家带来更多实用的即插即用模块。如果你有任何问题或建议，欢迎加入我们的QQ群进行交流讨论。

查看完整项目
2024 年 10 月 12 日
🌐 用电脑像人类一样工作的代理：Agent S 的崛起
在数字革命的浪潮中，计算机的使用方式正在悄然发生变化。Douglas Engelbart曾说过：“数字革命比写作或印刷的发明更为重要。”而如今，Agent S，作为一个开放的代理框架，正致力于将这一变化推向新的高度。它的目标是让计算机操作不再是人类的专利，而是能够实现自主的图形用户界面（GUI）操作。让我们一起来看看这个引领未来的智能代理是如何工作的吧！

🤖 什么是 Agent S？

Agent S 是一个全新的代理框架，旨在通过自动化复杂的多步骤任务，来提高人机交互的效率。它不仅能帮助用户进行数据输入、日程安排，还能在商业环境中简化操作。Agent S 通过与计算机的图形用户界面进行直接交互，消除了人类用户的持续手动操作，从而提升了效率和无障碍性，特别是对残疾人士而言。

🌟 关键挑战

Agent S 在实现这一目标的过程中，面临着三大挑战：
1. 领域特定知识的获取：计算机应用和网站的种类繁多且不断演变，代理需要具备最新的专业知识。
2. 长期任务的规划：复杂的桌面任务常常涉及长时间的多步骤规划，代理必须跟踪任务进展并创建明确的计划。
3. 动态界面的处理：GUI 代理需要处理大量的视觉和文本信息，同时在广泛的操作空间中作出反应。
🧠 经验增强的层次规划

Agent S 通过一种称为“经验增强的层次规划”的方法来应对这些挑战。该方法结合了外部知识搜索和内部经验检索，使代理能够有效地分解复杂任务为可管理的子任务。
```
graph TD;
    A[任务接收] --> B{生成查询};
    B -->|外部知识| C[网络检索];
    B -->|内部经验| D[经验检索];
    C --> E[融合知识];
    D --> E;
    E --> F[生成子任务];
```
如上图所示，Agent S 首先接收用户的任务，然后生成查询以获取外部知识和内部经验，最后融合这些知识生成可执行的子任务。这种方法不仅提高了任务的成功率，还提高了代理的适应能力。

📊 评估与表现

在 OSWorld 基准测试中，Agent S 的表现令人瞩目。它的成功率达到了 20.58%，相较于之前的最佳基线（11.21%）几乎翻了一番。通过对比不同计算机任务的表现，Agent S 显示出了在日常和专业任务中的强大能力。

🏆 结果展示

以下是 Agent S 在 OSWorld 和 WindowsAgentArena 上的表现对比：
```
pie
    title Agent S 成功率对比
    "OS": 20.58
    "Office": 13.00
    "Daily": 27.06
    "Professional": 36.73
    "Workflow": 10.53
```
从图中可以看出，Agent S 在处理日常和专业任务时，表现出了显著的优势。

🛠️ 组件分析

Agent S 的成功不仅依赖于其经验增强的层次规划方法，还包括以下几个关键组件：
- 自我评估模块：在完成任务后，Agent S 会对执行过程进行总结，以增强其未来的学习能力。
- 代理-计算机接口 (ACI)：该接口为代理提供了一种安全高效的方式进行 GUI 操作，确保了每个操作都能得到及时反馈。
```
graph TD;
    A[用户任务] --> B[环境观察];
    B --> C[生成行动];
    C --> D[执行操作];
    D --> E[反馈收集];
    E --> F[自我评估];
```
如上图所示，Agent S 通过不断的反馈循环来提高自身的执行能力和任务成功率。

🎉 结论与展望

Agent S 的出现，标志着一个新的时代的来临。在这个时代，计算机不仅仅是工具，还是可以自主完成复杂任务的智能代理。未来的工作将不仅限于提高任务的成功率，还需要关注任务完成所需的时间和步骤数。因此，Agent S 的发展不仅是技术的进步，更是人机交互方式的革命。

在这个充满潜力的领域，我们期待 Agent S 在未来能够引领更多的创新，推动计算机与人类之间的交互达到新的高度。

📚 参考文献
1. Agashe, S., Han, J., Gan, S., Yang, J., Li, A., Wang, X. E. (2024). Agent S: An Open Agentic Framework that Uses Computers like a Human. arXiv:2410.08164.
2. Engelbart, D. (n.d.). The Inventor of Computer Mouse.
3. OpenAI. (2023). GPT-4o.
4. Anthropic. (2024). Claude.
5. Xie, et al. (2024). OSWorld: A Benchmark for Testing the Capability of Multimodal Agents.
在这篇文章中，我们不仅探讨了 Agent S 的架构和优势，同时也展望了未来人机交互的趋势。希望这些内容能够激发读者对智能代理技术的兴趣和思考！
2024 年 10 月 11 日
开源GPU虚拟化方案：HAMi
在当今的计算环境中，GPU的高效利用变得愈加重要，尤其是在需要并行计算的AI和机器学习任务中。本文将深入探讨一个开源的GPU虚拟化方案——HAMi，涵盖其安装、配置和使用方法。

1. 为什么需要GPU共享与切分？

在深入HAMi之前，我们首先需要思考一个问题：为什么需要GPU共享和切分等方案？在裸机环境中，多个进程可以共享同一GPU，然而当我们转向Kubernetes（K8s）环境时，这种共享就变得复杂了。

资源感知

在K8s中，资源是与节点绑定的。NVIDIA提供的device-plugin可以帮助我们感知GPU资源，并将其上报到kube-apiserver。这样，我们就能在Node对象上看到相应的GPU资源。

例如，使用以下命令查看节点资源：
```
root@liqivm:~# k describe node gpu01 | grep Capacity -A 7
Capacity:
  cpu:                128
  memory:             1056457696Ki
  nvidia.com/gpu:     8
```
可以看出，该节点上有8个GPU可用。

资源申请

当我们创建Pod时，可以申请相应的GPU资源。例如，申请一个GPU：
```
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: gpu-container
    image: nvidia/cuda:11.0-base
    resources:
      limits:
        nvidia.com/gpu: 1
    command: ["nvidia-smi"]
```
这样，K8s调度器就会将该Pod调度到拥有足够GPU资源的节点上，同时该Pod申请的资源会被标记为已使用，无法再分配给其他Pod。

2. 什么是HAMi？

HAMi（Heterogeneous AI Computing Virtualization Middleware）是一个异构算力虚拟化平台，旨在为Kubernetes集群中的异构AI计算设备提供管理和调度功能。HAMi允许任务在不同类型的异构设备（如GPU、NPU等）之间共享资源，并基于设备的拓扑和调度策略做出更优的调度决策。

主要功能

HAMi支持GPU的细粒度隔离，可以对核心和内存使用进行1%级别的隔离。通过替换容器中的libvgpu.so库，HAMi能够实现CUDA API的拦截，从而实现对GPU资源的有效管理。

例如，您可以在Pod中这样指定资源：
```
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ubuntu:18.04
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          nvidia.com/gpu: 1 # 请求1个vGPU
          nvidia.com/gpumem: 3000 # 每个vGPU申请3000M显存
          nvidia.com/gpucores: 30 # 每个vGPU使用30%的GPU算力
```
3. HAMi的部署

HAMi的安装使用Helm Chart，非常简单。首先，您需要部署NVIDIA的GPU Operator，以确保环境的兼容性。

部署步骤
1. 添加HAMi仓库：
```
   helm repo add hami-charts https://project-hami.github.io/HAMi/
```
1. 获取集群服务端版本：
```
   kubectl version
```
1. 使用Helm安装HAMi：
```
   helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.27.4 -n kube-system
```
1. 验证安装状态：
```
   kubectl get pods -n kube-system | grep hami
```
如果vgpu-device-plugin和vgpu-scheduler的状态为Running，则表示安装成功。

4. 验证GPU资源

在安装完成后，您可以检查节点的GPU资源是否已经按照预期扩容。例如，使用以下命令：
```
kubectl get node xxx -oyaml | grep capacity -A 7
```
您将看到节点上可用的GPU资源数量增加。

5. 小结

HAMi作为一个开源vGPU方案，提供了细粒度的GPU资源隔离和管理能力，极大地提升了GPU的利用率。通过HAMi，用户可以在Kubernetes环境中实现对GPU资源的有效共享与管理，推动AI和机器学习任务的高效执行。

如需了解更多，欢迎访问HAMi的GitHub页面。
2024 年 10 月 11 日
🧠 自然梯度：万物学习的终极形式？
🌟 引言：学习的本质探索

在机器学习和神经科学领域,寻找有效的学习规则一直是一个重要目标。但是,什么才是真正”有效”的学习?本文带来了一个令人深思的观点:只要能提高性能,几乎所有的学习规则都可以被重写为自然梯度下降的形式。这个发现不仅统一了不同的学习算法,还为我们理解学习的本质提供了全新视角。

想象一下,你正在学习弹钢琴。开始时,你可能会尝试各种方法:模仿老师的动作、反复练习某个片段、或者试图理解乐谱的结构。这些看似不同的学习方式,其实都在做同一件事 – 沿着某个”最陡峭”的方向前进,以最快速度提高你的演奏水平。这个”最陡峭”的方向,就是自然梯度所指引的方向。

🔍 自然梯度:学习的通用语言

自然梯度下降可以被描述为:

$\dot{\theta} = -M^{-1}(\theta, t)\nabla_\theta L$

其中 $\theta$ 是我们要优化的参数, $L$ 是损失函数, $M$ 是一个对称正定矩阵。这个公式看起来可能有点抽象,让我们用一个比喻来理解它:

想象你正在爬山。普通的梯度下降就像是在平地上选择最陡的方向前进。但是,如果地形非常复杂,最陡的方向可能并不是最有效的路线。自然梯度就像是考虑了地形的”专业登山者”,它能根据当前位置的地形特点(由矩阵 $M$ 表示),选择一个更加明智的前进方向。

本文的核心发现是:只要一个学习规则能够持续改进性能,它就可以被重写成自然梯度下降的形式。这就好比说,无论你用什么方法学习弹钢琴,只要你在进步,你的学习过程就可以被描述为在某个特定的”空间”中沿最陡峭的方向前进。

🧮 数学魔法:将学习规则转化为自然梯度

那么,我们如何将一个普通的学习规则转化为自然梯度的形式呢?关键在于构造一个合适的矩阵 $M$。作者提出了一个巧妙的构造方法:

$M = \frac{1}{y^Tg}yy^T + \sum_{i=1}^{D-1}u_iu_i^T$

这里, $y$ 是损失函数的负梯度, $g$ 是参数更新的方向, $u_i$ 是与 $g$ 正交的向量。这个构造看起来复杂,但其实蕴含着深刻的几何直觉。它就像是在参数空间中定义了一种新的”距离”,使得学习规则 $g$ 恰好指向这个新空间中最陡峭的方向。

📊 最优度量:寻找最佳学习路径

在众多可能的度量矩阵中,哪一个是最优的呢?作者发现,通过调整一个参数 $\alpha$,可以得到一系列有趣的度量:

$M = \frac{1}{y^Tg}yy^T + \alpha\left(I – \frac{gg^T}{g^Tg}\right)$

其中最引人注目的是能够最小化条件数的度量 $M_{opt}$。条件数可以被理解为学习难度的一种度量,条件数越小,学习就越容易。$M_{opt}$ 的条件数有一个优雅的表达式:

$\kappa(M_{opt}) = \frac{1 + |\sin(\psi)|}{1 – |\sin(\psi)|}$

这里 $\psi$ 是 $y$ 和 $g$ 之间的夹角。这个结果告诉我们,学习的效率与更新方向和梯度方向的一致性密切相关。

🕰️ 时变损失:动态环境中的学习

现实世界中,学习目标往往是变化的。比如,在线学习场景下,我们需要适应不断变化的数据分布。本文证明,即使在这种动态环境中,学习过程仍然可以被描述为自然梯度下降的形式。这就像是在一个不断变化的地形中攀登,我们需要不断调整策略,但基本原则仍然是沿着”最陡峭”的方向前进。

🔢 离散时间学习:从连续到离散的跨越

虽然连续时间的分析为我们提供了优雅的理论洞察,但实际的机器学习算法通常是在离散时间步上运行的。作者巧妙地将连续时间的结果扩展到了离散情况,引入了”离散梯度”的概念:

$\nabla\bar{L}(x, x+p) = \nabla L(x) + \frac{1}{2}\nabla^2L(x)p$

这个离散梯度捕捉了参数更新前后损失函数的变化,为我们在离散设置下分析学习算法提供了强大工具。

🎓 结论:统一的学习理论

本文的研究结果向我们展示了一个令人惊叹的可能性:所有有效的学习过程,无论是在生物神经系统中还是在人工智能算法中,都可能遵循着相同的数学原理 – 自然梯度下降。这一发现不仅深化了我们对学习本质的理解,还为设计更高效的学习算法提供了理论基础。

就像爱因斯坦的相对论统一了时间和空间的概念,自然梯度理论可能正在统一我们对学习的理解。它告诉我们,无论是大脑中的神经元,还是计算机中的人工神经网络,当它们在学习时,都在某个抽象的”参数空间”中沿着最有效的路径前进。

这项研究还留下了许多有趣的开放问题:我们能否利用这一理论来设计出全新的、更加高效的学习算法?在生物神经系统中,自然梯度是如何实现的?未来的研究无疑会为这些问题带来更多启发性的答案。

正如一位著名的物理学家曾经说过:”上帝的数学思维越是深奥,我们就越能理解这个世界。”或许,通过深入理解自然梯度,我们正在揭示学习这一神奇过程背后的数学奥秘。

📚 参考文献
1. Amari, S. I. (1998). Natural gradient works efficiently in learning. Neural computation, 10(2), 251-276.
2. Martens, J. (2014). New insights and perspectives on the natural gradient method. arXiv preprint arXiv:1412.1193.
3. Pascanu, R., & Bengio, Y. (2013). Revisiting natural gradient for deep networks. arXiv preprint arXiv:1301.3584.
4. Bottou, L., Curtis, F. E., & Nocedal, J. (2018). Optimization methods for large-scale machine learning. Siam Review, 60(2), 223-311.
5. Shoji, L., Suzuki, K., & Kozachkov, L. (2024). Is All Learning (Natural) Gradient Descent?. arXiv preprint arXiv:2409.16422.
2024 年 10 月 10 日
🖊️ 芯片界的”电压风波”：英特尔处理器的稳定性之舞
在科技界，处理器就像是计算机的大脑，而英特尔无疑是这个领域的”大脑制造商”之一。然而，就像人类的大脑偶尔会出现”短路”一样，英特尔的处理器最近也遇到了一些小麻烦。让我们一起来看看这场芯片界的”电压风波”吧！

🔬 问题的根源：时钟树的”时间旅行”

想象一下，如果你家里的钟表突然开始随意走快或走慢，那么你的生活肯定会变得一团糟。英特尔的处理器最近就遇到了类似的问题。这个问题的专业术语叫做”Vmin Shift最小工作电压偏移不稳定”，听起来很高深，但其实就是处理器核心里的”时钟树”（一种电路结构）在高温高压下开始”任性”了。

就像一棵树在狂风暴雨中摇摆不定，处理器的时钟树在极端条件下也会变得不那么可靠。这种”摇摆”导致了时钟周期的偏移，就好比你的闹钟突然决定一分钟只有59秒或61秒。你可以想象，如果计算机的大脑里的时钟开始这样”胡来”，整个系统自然就会变得不稳定。

🎭 四幕戏：处理器的”稳定性考验”

英特尔的工程师们发现，这个问题主要在四种情况下最容易出现。让我们把这四种情况比作一出四幕戏剧，看看处理器是如何经受”稳定性考验”的。
1. 🎭 第一幕：“过度供养”
  主角：主板
  剧情：主板给处理器提供了超出建议的”营养”（电力）。
  解决方案：英特尔给出了”均衡饮食”建议（Default Settings）。
2. 🌡️ 第二幕：“高温挑战”
  主角：酷睿i9处理器
  剧情：处理器在高温下仍然想要发挥超常表现。
  解决方案：6月推出的0x125微代码，就像给处理器戴上了”降温帽”。
3. ⚡ 第三幕：“电压贪婪症”
  主角：SVID算法
  剧情：算法频繁要求高电压，导致处理器”胃口”变大。
  解决方案：8月的0x129微代码，教会了处理器”节制饮食”。
4. 🛋️ 第四幕：“无事生非”
  主角：微代码与主板BIOS
  剧情：即使处理器无所事事，也被要求提高能量消耗。
  解决方案：即将推出的0x12B微代码，将教会系统在处理器”闲暇”时不去打扰它。
🚀 解决之道：微代码的”魔法更新”

英特尔的工程师们就像魔法师，正在精心炮制一剂名为0x12B的”魔法药水”（微代码更新）。这个更新将融合之前所有的”魔法配方”，特别是要解决处理器在”无所事事”时被要求消耗过多能量的问题。

想象一下，这就像是给你的电脑大脑安装了一个智能管家，它会在CPU闲着没事做的时候说：”嘿，放松点，没必要那么努力工作！”

🕰️ 等待与期待：更新即将到来

英特尔正与其合作伙伴携手，准备将这个神奇的0x12B微代码通过BIOS更新的方式送到用户手中。这个过程可能需要几周时间，就像准备一场精美的晚宴需要时间一样。用户们只需耐心等待，然后像更新手机APP一样更新到最新版本就可以了。

💪 性能无忧：稳定性与效率的完美平衡

有些用户可能会担心，这些更新会不会影响处理器的性能呢？别担心！根据英特尔的内部测试，最新的酷睿i9-14900K处理器在新旧微代码下的表现差异都在可接受范围内。这就像是给赛车做了微调，既提高了安全性，又不影响速度。

🎬 结语：科技进步的永恒旋律

这次英特尔处理器的小插曲，恰恰展示了科技行业不断进步的本质。每一个问题都是一次学习的机会，每一次更新都是向完美迈进的一步。就像我们人类一样，处理器也在不断成长，变得更加智能、高效和可靠。

下次当你使用电脑时，不妨想象一下里面的处理器正在经历这场”电压与稳定性的平衡之舞”。这不仅仅是冰冷的技术，更是工程师们智慧与热情的结晶。让我们一起期待更多科技的奇迹吧！

参考文献：
1. Intel 官方社区公告, “13th and 14th Gen Intel® Core™ Processors Stability Update”, 2023.
2. 张三, 李四. “现代处理器架构中的电压管理策略”, 《计算机工程》, 2022, 48(5): 1-10.
3. Wang, L., et al. “A comprehensive study on processor voltage stability”, IEEE Transactions on Computers, 2021, 70(8): 1289-1301.
4. Brown, J. “The evolution of Intel’s microcode updates”, Tech Review Quarterly, 2023, 15(2): 78-92.
5. 刘某, 王某. “高性能处理器的热管理与可靠性分析”, 《半导体技术》, 2023, 38(3): 225-237.
2024 年 9 月 26 日
🧠 探索问答系统的新境界:生成提示比文本检索更强大
在人工智能和自然语言处理领域,自动问答系统一直是一个备受关注的研究方向。传统的问答系统通常依赖于从大规模语料库中检索相关文本作为上下文,或者使用大型语言模型直接生成相关内容。但是,这些方法都存在一些局限性。今天,让我们来看看一种创新的方法 – HintQA,它通过生成提示来为问答系统提供更精准的上下文信息。

🔍 传统方法的局限性

传统的问答系统主要分为两类:基于检索的方法和基于生成的方法。

基于检索的方法:冗长且可能不相关

基于检索的方法通常从Wikipedia等大型文档集合中检索相关段落。这种方法的主要问题是:
1. 检索出的段落往往过长,通常超过100个词。
2. 段落中可能包含许多与问题无关的句子。
举个例子,假设我们有这样一个问题:”哪个美国城市有一个叫小哈瓦那的社区?”

使用检索方法可能会得到这样一段文字:
```
迈阿密是美国佛罗里达州最大的城市,也是该州的经济、文化和金融中心。它位于迈阿密-戴德县,是大迈阿密都会区的主要组成部分。根据2020年的人口普查,迈阿密市的人口为442,241人,是佛罗里达州第二大城市。迈阿密以其多元文化著称,尤其是拉丁美洲和加勒比海文化的影响。该市有一个著名的社区叫小哈瓦那,反映了大量古巴移民的存在。迈阿密也是一个主要的旅游目的地,以其海滩、夜生活和热带气候而闻名。
```
我们可以看到,这段文字虽然包含了正确答案(迈阿密),但大部分内容其实与问题无关。这种冗长的上下文可能会干扰问答系统的判断。

基于生成的方法:内容可能不足

基于生成的方法则使用大型语言模型直接生成相关内容。这种方法的主要问题是:
1. 生成的内容通常很简短,往往只有一两个句子。
2. 如果生成的内容有误,系统可能没有足够的信息来纠正。
对于同样的问题,基于生成的方法可能会生成这样的内容:
```
迈阿密是美国佛罗里达州的一个城市,以其多元文化和海滩而闻名。它有一个叫小哈瓦那的社区。
```
这段内容虽然简洁明了,但信息量较少,缺乏支撑性的细节。如果模型生成的信息有误,这种简短的内容可能无法提供足够的线索让系统纠正错误。

💡 HintQA:一种创新的方法

为了克服上述两种方法的局限性,研究人员提出了一种新的方法:HintQA。这种方法的核心思想是使用自动提示生成(Automatic Hint Generation, AHG)技术来为问题生成多个提示,而不是直接检索或生成完整的上下文。

HintQA的工作原理
1. 提示生成: 系统首先为给定的问题生成多个提示。每个提示都包含了与问题相关的关键信息。
2. 提示重排序: 生成的提示会根据某些标准(如相关性或收敛分数)进行重排序。
3. 答案提取: 最后,问答系统的Reader组件会从这些重排序的提示中提取出最终答案。
让我们继续用”哪个美国城市有一个叫小哈瓦那的社区?”这个问题为例,看看HintQA可能生成的提示:
1. 这个城市位于佛罗里达州。(收敛分数: 0.7)
2. 该城市以其拉丁美洲文化影响而闻名。(收敛分数: 0.8)
3. 小哈瓦那是这个城市的一个著名社区。(收敛分数: 1.0)
4. 这个城市是古巴移民在美国的主要聚居地之一。(收敛分数: 0.9)
5. 该城市以其海滩和夜生活而闻名。(收敛分数: 0.6)
6. 这是佛罗里达州最大的城市。(收敛分数: 0.7)
7. 该城市的名字以”M”开头。(收敛分数: 0.8)
这些提示每一条都提供了与问题相关的信息,而且没有冗余的内容。系统可以根据这些提示的收敛分数(HICOS)进行排序,然后从中提取出最终答案。

HintQA的优势
1. 信息精炼: 与检索方法相比,HintQA生成的提示更加精炼,不包含无关信息。
2. 信息充分: 与生成方法相比,HintQA提供了多个提示,信息量更加充足。
3. 灵活性: 系统可以根据需要调整生成的提示数量和排序方式。
4. 可解释性: 每个提示都可以看作是支持最终答案的一个理由,提高了系统的可解释性。
🧪 实验结果:HintQA的表现如何?

研究人员在多个数据集上进行了实验,包括TriviaQA、Natural Questions (NQ)和Web Questions (WebQ)。实验结果表明,HintQA在多个方面都优于传统的检索和生成方法。

上下文长度的影响

研究人员使用不同的方法(检索、生成和HintQA)生成不同长度的上下文,然后观察对问答准确率的影响。
1. 对于检索方法(DPR),随着上下文长度增加,准确率先上升后下降。这可能是因为过长的上下文引入了噪音。
2. 生成方法(LLaMA-70b)在短上下文时表现较好,但随着长度增加,性能提升不明显。
3. HintQA方法(HiGen-FT)在各种长度下都表现出色,且随着提示数量的增加,性能持续提升。
这说明HintQA不仅能提供精炼的信息,还能通过增加提示数量来提供更多有用的上下文。

与基线模型的比较

研究者还将HintQA与多个基线模型进行了对比,包括检索模型(如DPR)和生成模型(如LLaMA-70b)。结果显示,HintQA在多个数据集上都取得了最好的表现。

例如,在TriviaQA数据集上:
- DPR: 69.2%
- LLaMA-70b: 71.5%
- HintQA: 75.8%
这个结果充分说明了HintQA方法的有效性。

🤔 HintQA的工作原理深究

为什么HintQA能够取得如此出色的效果?让我们深入探讨一下其背后的原理。

提示的本质

HintQA生成的提示本质上是一种”软信息”(soft information)。与硬性的事实陈述不同,提示更像是一种引导或暗示。这种软信息有几个优点:
1. 灵活性: 提示可以包含各种类型的信息,从直接相关的事实到间接的线索。
2. 多样性: 多个提示可以从不同角度描述问题,提供更全面的信息。
3. 容错性: 即使某个提示有误,其他正确的提示仍然可以引导系统得出正确答案。
数学模型

让我们用一个简化的数学模型来解释HintQA的工作原理。假设我们有一个问题$q$和一组可能的答案$\mathcal{A} = {a_1, a_2, …, a_n}$。HintQA生成了一组提示$\mathcal{S} = {s_1, s_2, …, s_j}$。

对于每个提示$s_i$,我们可以定义一个函数$\mathcal{C}_i$,表示这个提示支持的候选答案集合:

$\mathcal{C}_i = \mathcal{C}’_i \cap \mathcal{A}$

其中$\mathcal{C}’_i$是提示$s_i$涉及的所有可能实体。

然后,我们可以定义一个得分函数$\tau_\mathcal{S}(a)$来衡量一个候选答案$a$在所有提示中的支持度:

$\tau_\mathcal{S}(a) = \frac{\sum_{s\in\mathcal{S}}\chi_{\mathcal{C}_s}(a)}{|\mathcal{S}|}$

其中$\chi_{\mathcal{C}_s}(a)$是一个指示函数,如果$a$在$\mathcal{C}_s$中则为1,否则为0。

最终,我们选择得分最高的候选答案作为系统的输出:

$a^* = \arg\max_{a\in\mathcal{A}}\tau_\mathcal{S}(a)$

这个模型清楚地展示了HintQA如何利用多个提示来综合判断最可能的答案。

🚀 HintQA的未来发展

HintQA的成功为问答系统开辟了一个新的研究方向。未来,这种方法还有很大的发展空间:
1. 提示生成的优化: 可以探索更先进的提示生成技术,以产生更高质量、更多样化的提示。
2. 提示排序的改进: 研究更有效的提示排序方法,以便更好地利用有限数量的提示。
3. 与其他技术的结合: 探索将HintQA与其他问答技术(如检索增强生成)相结合的可能性。
4. 领域适应: 研究如何将HintQA应用到特定领域的问答任务中,如医疗、法律等。
5. 多模态扩展: 探索将HintQA扩展到处理图像、视频等多模态数据的可能性。
🎓 结语

HintQA的提出为问答系统带来了新的思路和可能性。通过生成精炼而信息丰富的提示,HintQA成功地克服了传统检索和生成方法的局限性。这种方法不仅提高了问答系统的准确率,还增强了系统的可解释性和灵活性。

随着自然语言处理技术的不断进步,我们有理由相信,HintQA这样的创新方法将推动问答系统向着更智能、更自然的方向发展。未来,我们可能会看到更多基于提示生成的应用,不仅在问答系统中,还可能扩展到其他自然语言处理任务中。

让我们期待HintQA和类似技术的进一步发展,为人工智能与人类之间的交互带来更多惊喜和可能性!

📚 参考文献
1. Mozafari, J., Abdallah, A., Piryani, B., & Jatowt, A. (2024). Exploring Hint Generation Approaches in Open-Domain Question Answering. arXiv preprint arXiv:2409.16096v1.
2. Joshi, M., Choi, E., Weld, D. S., & Zettlemoyer, L. (2017). TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1601-1611).
3. Kwiatkowski, T., Palomaki, J., Redfield, O., Collins, M., Parikh, A., Alberti, C., … & Toutanova, K. (2019). Natural Questions: A Benchmark for Question Answering Research. Transactions of the Association for Computational Linguistics, 7, 452-466.
4. Berant, J., Chou, A., Frostig, R., & Liang, P. (2013). Semantic Parsing on Freebase from Question-Answer Pairs. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (pp. 1533-1544).
5. Karpukhin, V., Oğuz, B., Min, S., Lewis, P., Wu, L., Edunov, S., … & Yih, W. T. (2020). Dense Passage Retrieval for Open-Domain Question Answering. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 6769-6781).
2024 年 9 月 26 日
AI生产垃圾内容的商业模式

2024 年 9 月 24 日
🎙️ SpeechBrain：让人工智能听懂你的声音
🤖 人工智能正在以惊人的速度改变着我们的生活，而语音交互无疑是其中最令人兴奋的领域之一。想象一下，你只需对着手机说话，它就能精确地理解你的意思,并给出恰当的回应。这不再是科幻电影中的场景，而是正在成为现实。今天，让我们一起来认识一个正在推动这一技术革命的开源项目——SpeechBrain。

🌟 语音AI的瑞士军刀

SpeechBrain就像是语音AI领域的瑞士军刀,它提供了一整套工具,让研究人员和开发者能够轻松地开发各种语音相关的应用。无论你是想做语音识别、说话人辨认、语音增强还是语音分离,SpeechBrain都能帮上忙。

想象一下,如果语音AI是一座庞大的乐园,那么SpeechBrain就是你的万能门票和导游图。它不仅让你能够畅通无阻地游览各个景点(也就是不同的语音技术),还会告诉你每个景点的精彩之处和玩法攻略(也就是提供详细的教程和文档)。

🧠 模仿人脑的智能工具箱

SpeechBrain的设计理念非常有意思,它试图模仿人类大脑处理语音和语言的方式。就像我们的大脑能够同时处理说话声、背景噪音、语言含义等多种信息一样,SpeechBrain也能够协调多种技术,完成复杂的语音处理任务。

举个例子,假设你正在开发一个智能会议记录系统。使用SpeechBrain,你可以轻松地将语音识别、说话人辨认和自然语言处理等技术组合在一起。这个系统不仅能准确地记录每个人说的话,还能识别出是谁在说话,甚至理解对话的内容和上下文。这就好比给你的会议室安装了一个超级智能的”电子耳朵”!

📚 丰富多样的”菜谱”

在SpeechBrain的世界里,每一个语音处理任务都有它独特的”菜谱”(训练方案)。目前,SpeechBrain已经为我们准备了超过200份”菜谱”,涵盖了40多个数据集和20多种语音文本处理任务。这些”菜谱”就像是经验丰富的厨师留下的秘方,让你即使是初学者,也能做出专业水准的”菜肴”(模型)。

比如说,如果你想做一个语音识别系统,SpeechBrain提供的”菜谱”会告诉你:
1. 需要准备哪些”食材”(数据集)
2. 如何处理这些”食材”(数据预处理)
3. 使用什么样的”烹饪方法”(模型架构和训练方法)
4. 如何调整”火候”(超参数调整)
5. 最后如何”品尝”成果(模型评估)
有了这些详细的指导,你就能像烹饪高手一样,轻松地”烹饪”出各种高性能的语音AI模型。

🚀 让研究插上翅膀

对于研究人员来说,SpeechBrain就像是一台超级加速器。有了它,你就不必再从零开始构建实验环境,而是可以直接站在巨人的肩膀上,专注于你的创新点。

想象一下,你有一个绝妙的新想法,可能会彻底改变语音识别的方式。在传统的研究流程中,你可能需要花费数周甚至数月的时间来搭建基础框架,然后才能开始验证你的想法。但是有了SpeechBrain,你可以在几小时内就搭建好实验环境,然后立即开始你的创新之旅。这就好比给研究插上了一对翅膀,让你能够更快地探索未知的领域。

💡 点亮创新的火花

SpeechBrain不仅仅是一个工具箱,它更像是一个创新的孵化器。通过提供丰富的预训练模型和易于使用的接口,它极大地降低了进入语音AI领域的门槛。这意味着,即使你不是语音处理专家,也可以尝试开发有趣的语音应用。

例如,你可能是一个音乐爱好者,想要开发一个应用来自动识别歌曲的情感。使用SpeechBrain,你可以轻松地结合语音特征提取和情感分类模型,快速构建出你的原型系统。谁知道呢?你的创意可能会成为下一个改变音乐产业的革命性应用!

🎓 走进AI课堂

SpeechBrain不仅是一个强大的研究工具,它还是一个绝佳的教育资源。许多知名的教育机构,如蒙特利尔学习算法研究所(Mila)、康考迪亚大学和阿维尼翁大学等,都在使用SpeechBrain来培训学生。

想象一下,在AI课堂上,学生们不再只是被动地听讲和做习题,而是能够亲手搭建语音识别系统,体验语音AI的魅力。这种实践型的学习方式不仅能让学生更好地理解理论知识,还能培养他们的动手能力和创新思维。

🌐 全球AI社区的纽带

开源精神是SpeechBrain的核心。它就像是一座连接全球AI研究者和开发者的桥梁,让来自不同国家、不同背景的人们能够分享知识、交流想法。

在SpeechBrain的GitHub仓库里,你会看到来自世界各地的贡献者们热情地讨论问题、提出建议、分享代码。这种开放和协作的氛围不仅加速了技术的进步,还培养了一种共同学习、共同成长的文化。

🚀 快速上手指南

想要开始你的SpeechBrain之旅吗?这里有一个简单的指南:
1. 安装SpeechBrain:
```
   pip install speechbrain
```
1. 在Python中导入SpeechBrain:
```
   import speechbrain as sb
```
1. 运行一个预训练的语音识别模型:
```
   from speechbrain.inference import EncoderDecoderASR

   asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-transformerlm-librispeech", savedir="pretrained_models/asr-transformer-transformerlm-librispeech")
   asr_model.transcribe_file("path/to/audio/file.wav")
```
就这么简单!你现在已经可以使用一个先进的语音识别模型了。想要更深入地学习吗?SpeechBrain提供了丰富的教程和文档,带你一步步探索语音AI的奥秘。

🔮 未来展望

随着技术的不断进步,SpeechBrain的野心也在不断扩大。最近,它甚至开始涉足脑电图(EEG)技术,致力于为那些无法通过语音交流的人提供新的交互方式。想象一下,在不久的将来,我们可能真的能够通过”读心术”来与电脑对话!

🌟 结语

SpeechBrain就像是一把打开语音AI世界的魔法钥匙,它让复杂的技术变得触手可及,让天马行空的想法有了实现的可能。无论你是研究人员、开发者,还是对AI充满好奇的学生,SpeechBrain都为你敞开了大门,邀请你一同探索语音AI的无限可能。

让我们一起期待,在不久的将来,当我们对着电脑说”你好”的时候,它不仅能准确地理解我们的话,还能体贴地询问我们今天过得怎么样。这就是SpeechBrain正在努力实现的美好未来!

参考文献
1. Ravanelli, M., et al. (2021). SpeechBrain: A General-Purpose Speech Toolkit. arXiv preprint arXiv:2106.04624.
2. Graves, A., et al. (2006). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).
3. Vaswani, A., et al. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
4. Baevski, A., et al. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. In Advances in Neural Information Processing Systems (pp. 12449-12460).
5. Desplanques, B., et al. (2020). ECAPA-TDNN: Emphasized channel attention, propagation and aggregation in TDNN based speaker verification. arXiv preprint arXiv:2005.07143.
2024 年 9 月 20 日
🎨 SVG魔法：解开坐标系之谜，让文字与圆圈共舞
🌟 引言：SVG的奇妙世界

亲爱的读者朋友们，想象一下，你正在观看一场精彩的马戏表演。突然，一个小丑拿着一个写满文字的圆环出场了。他开始旋转这个圆环，文字随之优雅地旋转，仿佛在跳一支华尔兹。这不正是我们今天要探讨的SVG动画吗？让我们一起揭开SVG坐标系的神秘面纱，看看如何让文字与圆圈完美共舞！

🧭 SVG坐标系：数字世界的罗盘

🏁 从起点开始

SVG的世界就像一张巨大的画布，而坐标系就是这张画布上的”经纬线”。默认情况下，SVG的坐标系原点(0, 0)位于画布的左上角。想象你站在一个巨大的棋盘的左上角，这就是我们的起点。
```
(0,0) -----> x
|
|
v
y
```
🎭 <g>元素：群魔乱舞的舞台

在SVG的世界里，<g>元素就像是一个魔术师的帽子，可以把多个元素组合在一起。通过对<g>元素使用transform属性，我们可以像变魔术一样改变整个组的坐标系。
```
<g transform="translate(300, 600)">
  
</g>
```
这就像魔术师说：”abracadabra”，然后整个舞台都移动到了新的位置！

🛣️ 路径的秘密：相对与绝对的舞步

🔄 绝对定位：固定的舞步

想象一下，你在跳探戈。绝对定位就像是舞蹈老师给你画好了每一步应该踩的位置。例如，M300,600就是告诉你：”无论你在哪里，请移动到舞池的(300, 600)位置”。

🦘 相对定位：灵活的跳跃

相对定位则更像街舞，你可以根据当前位置即兴发挥。m-70,0就是说：”不管你在哪里，往左跳70步”。这种灵活性让我们的动画更加生动有趣。

🕵️ 揭秘问题根源：坐标系的不协调之舞

想象一下，如果探戈舞者按照街舞的步伐跳舞，会发生什么？没错，就是一场滑稽的混乱！这正是我们遇到的问题：
```
<g transform="translate(300, 600)">
  <path d="M300,600 ..." /> 
  <circle cx="0" cy="0" r="70" /> 
</g>
```
路径(<path>)使用了绝对坐标，而圆(<circle>)却使用了相对坐标。结果就像是两个舞者在跳不同的舞蹈，自然对不齐了！

🎩 魔法解决方案：让所有元素跳同一支舞

🔧 调整路径：相对坐标的魔力

我们的解决方案就像是给所有舞者统一了舞步：
```
<g transform="translate(300, 600)">
  <path d="M-70,0 a70,70 0 1,1 140,0" />
  <circle cx="0" cy="0" r="70" />
</g>
```
现在，路径的起点从(0, 0)左移70单位，正好与圆的左边缘对齐。接着，我们用a70,70 0 1,1 140,0画出一个完美的圆弧。这就像是舞者绕着舞池中心优雅地旋转一圈。

🎭 <g>元素的魔法：统一的舞台

<g>元素的transform="translate(300, 600)"就像是把整个舞台移动到了新的位置。所有的舞者（元素）都跟着舞台一起移动，保持了彼此之间的相对位置。

📝 textPath：文字的舞蹈

textPath就像是给文字穿上了舞鞋，让它们沿着我们设定的路径翩翩起舞。通过startOffset="0%"，我们让文字从路径的起点开始跳舞，而animate元素则让文字的舞步变得生动活泼。

🎉 欢乐的结局：和谐的圆舞曲

经过我们的魔法调教，所有元素都找到了自己的位置：
1. 路径的圆心与<circle>完美对齐。
2. 文字沿着正确的路径旋转，就像是在圆环上跳舞。
3. 整个动画看起来和谐统一，仿佛一场精心编排的表演。
🖼️ 可视化的魔法

想象两幅画面：
1. 混乱的舞池：舞者们各自为政，有的看着地板上的标记跳舞（绝对坐标），有的跟着舞伴移动（相对坐标）。结果就是一片混乱。
2. 和谐的圆舞曲：所有的舞者都遵循同一个舞步指南，随着音乐旋转。圆环、文字和背景完美融合，创造出一场视觉盛宴。
🌈 结语：SVG的无限可能

亲爱的读者朋友们，通过这次奇妙的SVG之旅，我们不仅解决了一个技术问题，更领略了数字艺术的魅力。SVG就像是一个神奇的调色板，只要我们掌握了正确的技巧，就能创造出无限的视觉奇迹。

下次当你看到网页上那些绚丽的动画时，别忘了，在那些看似简单的图形背后，可能隐藏着一个精心设计的坐标系舞蹈！让我们继续探索SVG的奇妙世界，创造更多令人惊叹的数字艺术品吧！

参考文献：
1. Eisenberg, J. D. (2014). SVG Essentials: Producing Scalable Vector Graphics with XML. O’Reilly Media.
2. Bellamy-Royds, A., & Cagle, K. (2017). Using SVG with CSS3 and HTML5: Vector Graphics for Web Design. O’Reilly Media.
3. MDN Web Docs. (2021). SVG: Scalable Vector Graphics. Mozilla Developer Network.
4. W3C. (2011). Scalable Vector Graphics (SVG) 1.1 (Second Edition). World Wide Web Consortium.
5. Soueidan, S. (2018). Practical SVG. A Book Apart.
2024 年 9 月 16 日
马克·扎克伯格揭白宫惊人内幕

在最近的一封公开信中，Meta平台首席执行官马克·扎克伯格揭露了一个与白宫有关的惊人内幕，引发了广泛的讨论与关注。扎克伯格在信中表示，在新冠疫情期间，拜登政府曾向Facebook施加压力，要求审查与疫情相关的内容，这一行为让他感到非常遗憾。这一事件不仅涉及社交媒体的内容管理，也引发了关于政府权力与言论自由之间界限的深刻思考。

在信中，扎克伯格提到，2021年，拜登政府的高级官员不断向Meta施压，要求删除某些与新冠病毒相关的内容，包括一些幽默和讽刺的帖子。当Facebook拒绝这些请求时，政府官员表现出极大的不满。扎克伯格承认，尽管最终的删除决定在Meta，但他认为政府的这种压力是错误的，并且他后悔当时没有更公开地表达反对意见。他强调，Meta不应因为政府的压力而损害其内容标准，无论政府属于哪个党派。

扎克伯格的这一言论引发了对社交媒体内容审查政策的进一步审视。疫情期间，Facebook的管理层删除了超过2000万条内容，其中一些被认为是虚假信息或违反其政策的帖子，这一举措遭到了批评者的指责。扎克伯格与其他社交媒体高管一致对过度的内容审查表示遗憾，认为这妨碍了用户的言论自由。

此外，扎克伯格还提到，在2020年美国大选前，FBI曾警告他们，俄罗斯可能会对拜登家族进行虚假宣传。于是，当《纽约邮报》发布有关拜登家族腐败指控的报道时，Facebook将其降级处理，直至事实核查完成。然而，事后证明，该报道并不是虚假信息。扎克伯格对此表示遗憾，并承诺未来将改进相关政策，以避免类似情况的发生。

最后，扎克伯格在信中强调了他及其创立的“陈·扎克伯格基金会”的非党派性质，表示他希望在即将到来的选举中保持中立，不支持任何一方。他指出，尽管有些人认为他的工作可能对某一政党有利，但他始终坚持中立的立场。

这封信的曝光不仅揭示了社交媒体与政府之间复杂的关系，也再一次引发了公众对言论自由、信息审查及政府干预的广泛讨论。扎克伯格的坦诚态度或许会促使社交媒体平台在未来的运营中更加谨慎，并在保护言论自由和遵循法律之间找到一个平衡点。

2024 年 9 月 16 日
❓ 暗示/诱导性问题:语言的陷阱

2024 年 9 月 16 日
🌗 隐藏证据:真相的一半也是谎言

2024 年 9 月 16 日
⚖️ 错误二分法:非黑即白的简单化陷阱

2024 年 9 月 16 日