博客

探索人工智能——Zephyr 7B Beta与GGUF的奇妙之旅🚀

我们的主角是Zephyr 7B Beta和GGUF，它们都是我们这个广阔世界中的一颗璀璨星辰。🌟

Zephyr 7B Beta与GGUF的特色🌈

首先，让我们来了解一下Zephyr 7B Beta和GGUF。Zephyr 7B Beta是由Hugging Face H4团队开发的一个模型，GGUF则是由llama.cpp团队在2023年8月21日推出的一种全新格式，它取代了以前的GGML格式。GGUF已经得到了多个客户端和库的支持，包括llama.cpp、text-generation-webui、KoboldCpp、LM Studio、LoLLMS Web UI、Faraday.dev、ctransformers、llama-cpp-python和candle等。👏

GGUF的兼容性⚙️

GGUF文件与llama.cpp的兼容性始于2023年8月27日的d0cee0d提交。除此之外，它还与许多第三方的用户界面和库兼容。🔗

GGUF的量化方法🔬

接下来，我们来深入探讨一下GGUF的量化方法。GGUF采用了一种新的量化方法，包括2位、3位、4位、5位和6位的量化。这些不同的量化方法使模型在保证质量的同时，能够以更小的体积进行存储和传输，从而极大地提高了效率。🚀

如何下载GGUF文件💾

很多人可能会对如何下载GGUF文件感到困惑。实际上，你并不需要下载整个库，而只需要选择你想要的文件进行下载即可。例如，在text-generation-webui中，你可以直接输入模型库：TheBloke/zephyr-7B-beta-GGUF，然后输入你想要下载的文件名，如：zephyr-7b-beta.Q4_K_M.gguf，再点击下载即可。如果你想在命令行中下载多个文件，可以通过安装huggingface-hub Python库来实现。📥

结语🎈

以上就是我们今天的内容，人工智能的世界，充满了无限的可能，让我们一起期待它们为我们的生活带来更多的便利和乐趣。

2023 年 11 月 26 日
Anima—开源的33B中文大型语言模型

🎉 引言

👋 大家好，欢迎来到我们的播客节目。我知道你们每次来，都是期待听到一些新奇、有趣、颠覆常规的内容。那么今天，我带给大家的就是一项来自人工智能领域的重大突破——它名为Anima。

💡 什么是Anima？

Anima，这是一个开源的33B中文大语言模型(LLM)，是目前市面上第一个开源的如此庞大的中文LLM。但不仅如此，Anima还支持DPO对齐训练，同时也是我们开源的支持100k上下文窗口的模型。你也许会问，这些术语是什么意思，为什么它们如此重要。别急，接下来我会一一解释给大家听。

🚀 Anima的特性

首先，让我们来了解一下什么是大语言模型。简单来说，大语言模型是一种人工智能模型，它能理解和生成人类语言。而33B，这个数字代表的是模型的规模，也就是模型的参数数量。在Anima中，这个数字达到了330亿，这意味着Anima具有极强的理解和生成语言的能力。

接下来，我要介绍的是DPO对齐训练。DPO，全称为Distributed Policy Optimization，是一种分布式策略优化技术。它可以帮助我们高效地训练大规模的人工智能模型，让它们可以更好地理解和生成语言。

最后，我要说的是100k上下文窗口。在语言模型中，上下文窗口的大小决定了模型可以理解的语境范围。100k的上下文窗口意味着Anima可以理解更长的文本，更丰富的语境，从而生成更准确、更自然的语言。

🌟 AirLLM的升级

而最新的更新，是我们引入了AirLLM。这是一个库，它可以帮助你使用单个GPU，只需4GB的内存，就能推断70B的大型语言模型。这意味着，你不再需要拥有强大的计算资源，也可以使用超大规模的语言模型。这无疑为个人开发者和小型团队打开了一扇新的大门。

⭐ 结语

Anima，这是一项突破性的工作，它让我们看到了人工智能的可能性和未来。无论你是一个开发者，还是对人工智能有兴趣的听众，我都邀请你去看看Anima的GitHub页面。你会发现，那里有一个全新的世界，等待着你的探索。谢谢大家，我们下期节目再见！

👋 再见，祝你有美好的一天！

2023 年 11 月 26 日
ICL vs Fine-tuning：迁移学习中的两种方法
导语：
迁移学习是机器学习领域中的一个重要概念，它可以将在一个任务上学到的知识迁移到另一个任务上。在迁移学习中，有两种常见的方法：ICL（Instance-based Cross-Lingual Learning）和Fine-tuning。本文将逐步思考并详细解析这两种方法的原理和适用场景。

正文：
1. ICL（Instance-based Cross-Lingual Learning）
  ICL是一种基于实例的跨语言学习方法，它通过在源语言和目标语言之间建立对应关系来实现知识迁移。具体而言，ICL使用源语言的标注数据和目标语言的未标注数据进行训练，然后将源语言的模型参数应用到目标语言的任务上。这种方法的优势在于可以利用源语言的丰富标注数据来提升目标语言任务的性能，尤其适用于目标语言数据稀缺的情况。
2. Fine-tuning
  Fine-tuning是一种微调模型的方法，它通过在源任务上预训练一个模型，然后将该模型的参数应用到目标任务上，并在目标任务上进行进一步的训练。与ICL不同的是，Fine-tuning不需要源语言和目标语言之间的对应关系，而是通过共享模型参数来实现知识迁移。这种方法的优势在于可以利用源任务的大规模标注数据来提升目标任务的性能，尤其适用于目标任务和源任务之间存在一定的相似性。
3. ICL vs Fine-tuning
  ICL和Fine-tuning在迁移学习中有着不同的应用场景。ICL适用于源语言和目标语言之间存在对应关系的情况，例如机器翻译任务中的不同语言对。通过利用源语言的标注数据和目标语言的未标注数据，ICL可以有效地提升目标语言任务的性能。而Fine-tuning适用于源任务和目标任务之间存在一定的相似性的情况，例如在图像分类任务中，可以通过在大规模图像分类任务上预训练一个模型，然后将该模型应用到目标图像分类任务上进行微调，从而提升目标任务的性能。
结论：
ICL和Fine-tuning是迁移学习中常用的两种方法，它们分别适用于不同的应用场景。ICL适用于源语言和目标语言之间存在对应关系的情况，可以利用源语言的标注数据提升目标语言任务的性能；而Fine-tuning适用于源任务和目标任务之间存在一定的相似性的情况，可以利用源任务的大规模标注数据提升目标任务的性能。

Learn more:
2023 年 11 月 23 日
Monarch Mixer: 重新审视BERT，无需注意力机制或多层感知器
引言：
近年来，Transformer模型在自然语言处理和计算机视觉等领域取得了巨大成功。然而，我们是否只有Transformer这一种模型可以达到如此惊人的性能呢？这是一个我们一直在思考的问题。为了回答这个问题，斯坦福大学的研究人员提出了一种新的架构——Monarch Mixer（M2），它在序列长度和模型维度上都是次二次的，同时在性能上能够与Transformer媲美甚至超越。

Monarch Mixer架构：
Monarch Mixer的基本思想是用Monarch矩阵替换Transformer的主要组件。Monarch矩阵是一类结构化矩阵，它广义上推广了快速傅里叶变换（FFT），具有次二次的计算复杂度，同时在硬件上更加高效和表达能力强。Monarch Mixer使用由Monarch矩阵构建的层来实现序列内的混合（类似Transformer中的注意力机制）和模型维度上的混合（类似Transformer中的多层感知器）。与MLP Mixer和ConvMixer等工作类似，Monarch Mixer将所有组件替换为单一的原语，从而实现了全面的次二次架构。

Monarch Mixer与BERT的结合：
作为对这一思想的首次验证，研究人员选择了BERT作为目标模型。他们将BERT中的注意力机制替换为受到注意力自由模型的启发，并用一些简单的块对角矩阵替换了MLP。所有这些操作都可以用Monarch矩阵来实现。此外，他们还对模型进行了一些微调，如添加额外的卷积连接和在微调过程中使用平均池化等。通过这些改进，他们成功地构建了Monarch Mixer BERT（M2-BERT）模型。

M2-BERT的性能：
研究人员对M2-BERT模型进行了评估，并与标准的BERT模型进行了比较。令人惊讶的是，即使在参数数量较少的情况下，M2-BERT模型的性能也相当不错。例如，M2-BERT-base模型（80M参数）在GLUE任务上的平均得分超过了标准BERT-base模型（110M参数）。此外，通过参数匹配，M2-BERT-base模型的性能还有进一步提升。

长序列的优势：
Monarch Mixer架构的一个潜在优势是在处理长序列时的速度和可扩展性。由于M2在模型维度上是次二次的，因此可以减少计算量。而序列混合器在序列长度上也是次二次的，这意味着它具有处理更长序列的潜力。

结论：
Monarch Mixer是一种新颖的架构，它通过使用次二次的Monarch矩阵替换Transformer的组件，实现了与Transformer相媲美甚至超越的性能。尽管目前还处于早期阶段，但M2-BERT模型已经展现出了很大的潜力。未来的研究将进一步探索Monarch Mixer架构的优化和应用。

Learn more:
2023 年 11 月 23 日
QLoRA: 高效微调大型语言模型的利器
引言：
在机器学习领域，大型语言模型（LLM）是当前热门话题。想象一下，你是一名机器学习工程师，你的公司拥有GPU和开源的LLM，比如LLAMA/Falcon。你的任务是为每个客户构建工具，每个客户都有独特的需求。你为每个客户微调模型，每个人都满意。但是当你有成千上万个客户时会发生什么？部署成千上万个对GPU需求很高的LLM是不可行的，除非你有大量的GPU供应。你需要一种策略，可以在不耗尽资金或超负荷存储的情况下为每个客户微调模型。这就是QLoRA和LoRA发挥作用的地方。

QLoRA和LoRA的背景：
QLoRA和LoRA是一种高效微调大型语言模型的技术。在微调过程中，我们通常需要调整模型的权重参数，以适应特定的任务。传统的微调方法需要逐步更新权重参数，这会导致计算和存储开销巨大。而QLoRA和LoRA则提供了一种更高效的方法，可以将微调过程中的权重变化存储起来，并在需要时一次性更新模型的权重，从而节省了计算和存储资源。

QLoRA和LoRA的工作原理：
- LoRA（Low-Rank Adapters）：LoRA的核心思想是将可调整的低秩矩阵注入到Transformer架构的每一层中。这些低秩矩阵充当适配器的角色，使得模型可以根据特定任务进行调整和专门化，同时最大限度地减少额外的参数数量。
- QLoRA（Quantized Low-Rank Adapters）：QLoRA是LoRA的扩展，它在微调过程中引入了量化技术，以增强参数的效率。QLoRA利用LoRA的原理，并引入了4位NormalFloat（NF4）量化和双重量化技术，进一步减少了存储和计算资源的使用。
QLoRA和LoRA的优势：
- 减少参数开销：QLoRA和LoRA通过使用低秩矩阵而不是微调所有参数，显著减少了可调参数的数量，使得模型在存储和计算上更加高效。
- 高效切换任务：QLoRA和LoRA允许共享预训练模型用于多个任务，减少了维护独立实例的需求。这样在部署过程中可以快速无缝地切换任务，减少了存储和切换成本。
- 无推理延迟：QLoRA和LoRA的线性设计确保与完全微调的模型相比没有额外的推理延迟，适用于实时应用。
QLoRA和LoRA的应用前景：
QLoRA和LoRA为微调大型语言模型提供了高效的解决方案，可以在保证任务性能的同时减少可调参数的数量。这些技术在自然语言处理领域具有广泛的应用前景，可以帮助我们更好地利用大型语言模型的知识和能力。

Learn more:
2023 年 11 月 23 日
Embroid: 无标签纠正和改进语言模型预测

在最近的研究中，一项名为”Embroid”的新技术引起了广泛关注。这项技术可以在没有标签的情况下，对大型语言模型（LLM）的预测进行纠正和改进。通过使用这种技术，我们可以提高LLM在各种自然语言处理任务中的性能，而无需依赖于标注数据。本文将逐步思考并详细解析Embroid技术的原理和应用。

Embroid技术的原理

Embroid技术的核心思想是利用嵌入空间的平滑性质来改进LLM的预测。嵌入空间是指模型如BERT中的向量表示空间，其中相似的样本在空间中的距离较近。Embroid利用这种平滑性质，通过比较LLM预测与其邻居预测的差异，来识别预测不一致的情况。然后，通过调整这些预测，使其与邻居的预测一致，从而提高整体的预测准确性。

Embroid技术的应用

Embroid技术在各种任务中都能够改进LLM的预测性能。例如，在GPT-JT模型上，Embroid技术在89.1%的情况下改进了预测结果，平均提升了7.3个F1分数。类似的改进效果也在GPT-3.5等API访问模型中观察到。

此外，Embroid技术可以与不同的提示策略相结合，如AMA、chain-of-thought和demonstration-selection engineering，进一步提高性能。同时，通过选择适当的嵌入模型，Embroid技术可以定制到特定领域，例如使用HuggingFace上提供的法律嵌入模型，可以改进通用领域LLM的性能。

总结

Embroid技术是一种无标签纠正和改进LLM预测的新方法。通过利用嵌入空间的平滑性质，Embroid技术能够识别并纠正LLM预测中的不一致之处，从而提高预测的准确性。该技术在各种任务中都表现出良好的性能，并且可以与不同的提示策略和嵌入模型相结合，进一步提升性能。Embroid技术的出现为无标签数据的利用提供了新的可能性，为语言模型的发展带来了新的机遇。

2023 年 11 月 23 日
Embroid: 无标签纠正和改进LLM预测

近年来，人工智能领域取得了巨大的进展，其中包括了语言模型的发展。语言模型是一种能够理解和生成自然语言的模型，如BERT和GPT。然而，这些模型在进行预测时通常需要大量的标记数据来训练，这对于一些特定任务来说可能是一项耗时且昂贵的工作。

幸运的是，研究人员提出了一种名为Embroid的方法，可以在没有标签数据的情况下改进和纠正语言模型的预测性能。Embroid利用了语言模型的嵌入空间的平滑性质，即在嵌入空间中相似的样本通常具有相同的标签。这意味着，如果一个样本的预测与其在嵌入空间中的最近邻的预测不一致，那么它很可能是错误的。

那么，Embroid是如何工作的呢？首先，它使用语言模型作为分类器，通过提示来进行预测。这样，领域专家只需要花费时间编写提示，而不需要手动标记大量的数据。然而，设计有效的提示并不容易，微小的更改可能会对预测结果产生显著影响。

接下来，Embroid利用嵌入空间的平滑性来检查语言模型的预测是否正确。如果一个样本的预测与其最近邻的预测不一致，那么它很可能是错误的。通过调整这些预测，使其与邻居的预测相匹配，Embroid可以提高整体的预测准确性。

为了避免过度依赖单个嵌入空间，Embroid还进行了多个嵌入空间的比较。这样可以在不同模型的嵌入空间中找到更准确的预测结果。通过使用弱监督的方法，将多个嵌入空间的预测结果结合起来，Embroid生成了最终的纠正预测，而无需标记数据。

研究人员进行了一系列实验证明，Embroid在各种任务上都能够改善原始提示的预测结果。无论是在GPT-JT还是GPT-3.5上，Embroid都能够显著提高预测的准确性。这项研究的结果为我们提供了一种无需标签数据就能改进和纠正语言模型预测的方法，为未来的研究和应用提供了新的思路。

总之，Embroid是一种创新的方法，通过利用嵌入空间的平滑性来改进和纠正语言模型的预测性能。它不仅减少了手动标记数据的工作量，还提高了预测的准确性。这项研究的成果对于推动自然语言处理领域的发展具有重要意义，为我们在实际应用中更好地利用语言模型提供了新的可能性。

2023 年 11 月 23 日
Embroid：无需标签纠正和改进LLM预测
导语：
在人工智能领域，研究人员一直在探索如何提高预测模型的准确性。最近，斯坦福大学、Anthropic和威斯康星大学麦迪逊分校的研究人员开发了一种名为Embroid的方法，可以在不使用标签的情况下纠正和改进LLM（语言模型）的预测。本文将详细解析Embroid方法的原理和应用。
1. Embroid方法的原理：
  Embroid方法基于一种名为嵌入函数的计算方法，通过计算数据集在不同嵌入函数下的多个表示，并利用LLM的预测一致性来识别错误预测[1]。具体而言，Embroid方法通过将数据集输入LLM，得到预测结果。然后，通过计算不同嵌入函数下的数据集表示，可以得到多个表示。最后，利用LLM的预测一致性来识别错误预测，并进行纠正和改进。
2. Embroid方法的应用：
  Embroid方法在不同任务上的性能提高了7.3个百分点至GPT-JT和4.9个百分点至GPT-3.5[1]。这意味着Embroid方法可以帮助改进LLM在各种任务中的预测准确性，从而提高人工智能系统的性能。例如，在自然语言处理任务中，Embroid方法可以帮助纠正和改进LLM对文本的情感分析、命名实体识别等预测。
3. Embroid方法的优势：
  Embroid方法的优势在于不需要使用标签来进行训练和纠正。传统的方法通常需要大量标记好的数据集来训练模型，而Embroid方法可以通过利用LLM的预测一致性来纠正错误预测，从而避免了标签数据集的依赖。
4. Embroid方法的意义：
  Embroid方法的出现对于解决标注数据集困难的问题具有重要意义。标注数据集的构建通常需要大量的时间和人力成本，而Embroid方法可以通过利用LLM的预测一致性来提高预测准确性，从而减少对标注数据集的依赖。这将为人工智能技术的发展提供更多的可能性。
总结：
Embroid方法是一种无需标签纠正和改进LLM预测的方法。通过计算不同嵌入函数下的数据集表示，并利用LLM的预测一致性来识别错误预测，Embroid方法可以提高人工智能系统在各种任务中的预测准确性。这一方法的出现对于解决标注数据集困难的问题具有重要意义，并为人工智能技术的发展带来更多的可能性。

参考文献：
[1] AI前沿速报0817：OpenAI首次公开收购 – 知乎
[1] 研究人员开发出一种AI方法，可以自动纠正预测错误 – 知乎

Learn more:
1. AI前沿速报0817：OpenAI首次公开收购 – 知乎
2023 年 11 月 23 日
FlashFFTConv：使用张量核心进行长序列高效卷积
导语：本文将详细解析FlashFFTConv，一种使用张量核心进行长序列高效卷积的算法。我们将介绍FlashFFTConv的原理、优势以及应用领域。

1. 引言

卷积模型在处理长序列任务时展现出了出色的推理能力，例如长文本建模、音频分析和DNA建模等。然而，与经过优化的Transformer相比，卷积模型在计算时间上仍存在瓶颈。其中一个主要瓶颈是快速傅里叶变换（FFT）算法，该算法可以在O(NlogN)的时间复杂度内计算长卷积，但硬件利用率较低。为了解决这个问题，我们提出了FlashFFTConv算法，一种在GPU上高效计算FFT卷积的新算法[2]。

2. FlashFFTConv算法原理

FlashFFTConv算法通过Monarch分解将FFT卷积的步骤融合在一起，并利用现代GPU上的张量核心进行计算。该算法的主要思想是将FFT分解为矩阵乘法操作，并在长序列情况下实现步骤的融合。具体而言，FlashFFTConv算法通过以下两个方面解决了FFT卷积的瓶颈[2]：
- 使用Monarch分解将FFT分解为矩阵乘法操作，从而可以利用张量核心进行计算。
- 将多个FFT卷积步骤融合在一起，即使对于长序列也能高效计算。
3. FlashFFTConv的优势

FlashFFTConv算法相较于传统的FFT算法具有以下优势[2]：
- 高效利用现代GPU上的张量核心，加速卷积计算。
- 在序列长度为2K时，FlashFFTConv开始与FlashAttention-v2性能相匹配，并在更长的序列上表现出色，最高可达到62%的MFU。
- 相较于最优化的Transformer，FlashFFTConv在长序列卷积任务上具有更高的计算效率。
4. FlashFFTConv的应用领域

FlashFFTConv算法在以下领域具有广泛的应用前景[2]：
- 长文本建模：FlashFFTConv可以用于处理长文本序列，例如自然语言处理任务。
- 音频分析：FlashFFTConv可以用于处理音频序列，例如语音识别和音乐生成等任务。
- DNA建模：FlashFFTConv可以用于处理DNA序列，例如基因组学研究和生物信息学分析等任务。
5. 结论

FlashFFTConv是一种高效的卷积算法，通过利用张量核心和Monarch分解，可以加速长序列的卷积计算。该算法在长序列任务中具有广泛的应用前景，并在性能上超越了传统的FFT算法和优化的Transformer。我们期待看到FlashFFTConv在各个领域的进一步应用和发展。

参考文献
1. GitHub – HazyResearch/flash-fft-conv: FlashFFTConv
2. FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores · Hazy Research
Learn more:
2023 年 11 月 23 日
简单长卷积用于序列建模的详细解析
在序列建模中，我们一直在研究如何获得良好的性能，并开发了新的系统技术和深度学习架构。今天，我们将介绍一个简单的基准线方法，它可以取得出人意料的好效果：只需使用与输入序列相同大小的长卷积！事实证明，我们只需要简单的正则化，卷积就可以与复杂的序列模型（如S4）在Long Range Arena和文本建模等基准测试中相媲美。[1]

长卷积的正则化：
我们首先提出了一个问题：如果将SSMs（State Space Models）替换为长卷积，会发生什么？代码非常简单，我们可以使用FFT卷积以O(NlogN)的时间复杂度计算长卷积（而不是PyTorch的Conv1D中的O(N^2)）。然而，如果在Long Range Arena等基准测试上尝试这种方法，你会发现性能落后于SSMs。[1]

为什么会这样呢？如果你可视化学习到的卷积核，你会发现一个潜在的答案：长卷积核非常不平滑和嘈杂！为了解决这个问题，我们发现只需应用一个简单的正则化操作——Squash操作——到卷积核权重上即可。这个操作非常简单，只需要一个超参数λ。如果在训练过程中应用这个操作，你会得到在时间域上更稀疏、在频率域上更平滑的卷积核。在Long Range Arena基准测试上，这个小改变就足以与SSMs的性能相匹配。[1]

长卷积的应用：
我们进一步评估了长卷积在图像分类、文本建模和脑fMRI分析等领域的性能，并发现长卷积在所有这些领域都表现出色。特别是在文本建模中，我们将H3层中的SSMs替换为卷积，发现这个新的H3-Conv模型在PILE数据集上的性能与H3相当，并且优于Transformers。[1]

未来展望：
我们的论文中还包括更多关于长卷积在其他领域的评估，例如图像分类和脑fMRI分析等有趣的应用。我们还开发了一些新的系统优化方法，以提高长卷积的运行时性能。此外，我们还发现了长卷积与Monarch矩阵理论之间的有趣联系，这使得我们可以在卷积中插入额外的参数，从而获得更好的质量。[1]

结论：
简单的长卷积在序列建模中表现出色，并且只需添加简单的正则化操作就可以与复杂的序列模型相媲美。这种方法在多个领域都取得了良好的结果，并且具有较高的运行时性能。我们对这些方向非常感兴趣，并且希望能够在开放的环境中进一步发展这些方法。[1]

Learn more:
2023 年 11 月 23 日
RWKV-5详细解析：理解并行训练的RNN网络
RWKV-5是一种可以并行训练的RNN网络，相较于基于Transformer的模型，它具有更低的自回归解码复杂度。本文将从多个角度详细解析RWKV-5模型，帮助读者更好地理解该模型的原理和应用

一、RWKV-5模型的背景和意义
1.1 Transformer模型的挑战 [1]
- Transformer模型是一种革命性的神经网络架构，但在处理长序列时面临内存和计算复杂度的问题。
- 复杂度与序列长度呈二次关系，限制了其在大语言模型中的应用。
1.2 RWKV-5模型的优势 [1]
- RWKV-5利用了循环神经网络的思想，重新构造了注意力机制，使得复杂度与序列长度之间呈线性关系。
- 可以并行训练，提高了训练效率。
- 更适应大语言模型的自回归解码推理。
二、RWKV-5模型的核心思想
2.1 注意力机制和循环神经网络的核心思想 [1]
- 注意力机制：通过全局建模和并行计算，提高模型对长距离依赖关系的建模能力。
- 循环神经网络：将时刻t的输出作为时刻t+1的输入，适用于自回归解码推理。
2.2 RWKV-5模型中的AFT注意力机制 [1]
- 将点积转化为张量积，带来了并行性。
- 张量积建模相互作用，提高了模型的表达能力。
三、RWKV-5模型的架构和设计
3.1 RWKV-5的整体架构 [1]
- 包括Time-Mix模块和Channel-Mix模块。
- Time-Mix模块将循环神经网络思想融入AFT的注意力机制中。
- Channel-Mix模块用于处理通道之间的信息交互。
3.2 RWKV-5的位置编码设计 [1]
- 位置编码用于表示输入序列中单词的位置信息。
- RWKV-5采用了一种特殊的位置编码设计，具体细节可参考原论文。
四、RWKV-5模型的应用领域
- RWKV-5模型在大语言模型的自回归解码推理中具有广泛的应用前景。
- 可以用于文本生成、机器翻译、语音识别等任务。
结语：
通过对RWKV-5模型的详细解析，我们了解到它是一种可以并行训练的RNN网络，相较于基于Transformer的模型具有更低的自回归解码复杂度。RWKV-5模型的核心思想是将循环神经网络和AFT注意力机制相结合，通过张量积建模相互作用，提高了模型的表达能力。该模型在大语言模型的自回归解码推理中具有广泛的应用前景。

参考文献：
[1] 小白视角解读RWKV论文模型 – 知乎
[2] RWKV的RNN CNN二象性 – 知乎

Learn more:
2023 年 11 月 23 日
FIDO2详细解析
FIDO2是FIDO联盟最新的规范集，它使用户能够在移动和桌面环境中轻松地对在线服务进行身份验证。FIDO2规范由万维网联盟（W3C）的Web身份验证（WebAuthn）规范和FIDO联盟的客户端到身份验证器协议（CTAP）组成[1]。

FIDO2的目标是让世界超越密码，提供一种更安全、更便捷的身份验证方法。它的实现依赖于以下几个关键组件：
1. WebAuthn：WebAuthn是FIDO2的一部分，它是一种使用JavaScript提供的API，用于与身份验证设备进行交互。Web服务开发人员可以通过实施WebAuthn标准，使浏览器能够与身份验证设备进行通信[2]。
2. CTAP：CTAP是客户端到身份验证器协议，它定义了浏览器和身份验证器之间的通信协议。CTAP允许浏览器向身份验证器发送请求，并接收来自身份验证器的响应。这样，浏览器可以与用户的身份验证设备进行交互，完成身份验证过程[2]。
3. 身份验证器：身份验证器是用于进行身份验证的设备，例如USB密钥、智能手机或计算机的可信平台模块（TPM）。这些设备保存用户的密钥，并在与服务交互时使用它们。身份验证器可以通过CTAP协议与浏览器进行通信，完成身份验证过程[3]。
FIDO2的工作流程如下：
1. 用户登录服务：用户使用用户名和密码登录Web服务。
2. 选择FIDO2身份验证：用户选择使用FIDO2进行身份验证，而不是传统的用户名和密码。
3. 与身份验证器交互：浏览器通过WebAuthn API与用户的身份验证器进行交互，向其发送请求并接收响应。
4. 完成身份验证：身份验证器使用保存的密钥对用户进行身份验证，并将结果发送回浏览器。
5. 访问服务：如果身份验证成功，用户将获得访问服务的权限。
FIDO2的优点和缺点：

优点：
- 更安全：FIDO2使用公钥加密技术，用户的私钥保存在身份验证器中，不会被泄露。这比传统的用户名和密码更安全。
- 更便捷：用户只需使用身份验证器进行一次注册，以后就可以通过简单的身份验证过程访问多个服务，无需记住多个密码。
- 跨平台支持：FIDO2可以在移动和桌面环境中使用，支持多种设备和操作系统。
缺点：
- 设备依赖性：FIDO2需要用户拥有兼容的身份验证器设备，如果用户没有这样的设备，就无法使用FIDO2进行身份验证。
- 依赖网络：FIDO2需要与Web服务进行通信，因此需要网络连接。如果网络不可用，用户无法进行身份验证。
总结：

FIDO2是一种新的身份验证方法，它通过结合WebAuthn和CTAP规范，使用户能够在移动和桌面环境中轻松地对在线服务进行身份验证。FIDO2提供了更安全、更便捷的身份验证方式，但需要用户拥有兼容的身份验证器设备和网络连接。

Learn more:
2023 年 11 月 23 日
WebAuthn 详细解析
WebAuthn是一种无密码身份验证技术，它允许用户在网站上进行安全的身份验证，而无需使用传统的用户名和密码。通过WebAuthn，用户可以使用指纹、面部识别、USB密钥等多种身份验证方式来登录网站，从而提高安全性和便利性。

下面是对WebAuthn的详细解析：

1. 什么是WebAuthn？

WebAuthn，全称Web Authentication，是W3C（万维网联盟）制定的一种用于在浏览器上进行身份验证的API。它是FIDO2（Fast Identity Online 2）标准的一部分，旨在提供更安全、更便捷的身份验证方式。

2. WebAuthn的工作原理

WebAuthn的工作原理可以分为以下几个步骤：

2.1 注册阶段
- 用户在网站上选择使用WebAuthn进行身份验证。
- 网站生成一个随机的挑战（Challenge）并将其发送给用户。
- 用户的认证器（Authenticator）生成一对公私钥，并将公钥与用户的身份信息绑定。
- 认证器将公钥、挑战和其他相关信息一起进行签名，并将签名结果发送给网站。
- 网站将用户的公钥和签名结果保存起来，用于后续的身份验证。
2.2 身份验证阶段
- 用户在网站上选择使用WebAuthn进行身份验证。
- 网站生成一个随机的挑战（Challenge）并将其发送给用户。
- 用户的认证器（Authenticator）使用保存的私钥对挑战进行签名，并将签名结果发送给网站。
- 网站验证签名结果的有效性，如果一致则表示用户身份验证通过。
3. WebAuthn的优势和应用场景

WebAuthn相比传统的用户名和密码身份验证方式具有以下优势：
- 更高的安全性：使用公私钥对挑战进行签名，避免了密码泄露的风险。
- 更便捷的用户体验：用户可以使用指纹、面部识别等生物特征进行身份验证，无需记住复杂的密码。
- 跨平台支持：WebAuthn可以在不同平台上使用，包括桌面浏览器、移动设备等。
WebAuthn的应用场景包括但不限于：
- 网站登录：用户可以使用WebAuthn进行网站登录，提高登录的安全性和便利性。
- 二次验证：WebAuthn可以作为二次验证的一种方式，提供额外的安全层级。
- 身份认证：WebAuthn可以用于身份认证，例如在金融、医疗等领域进行身份验证。
4. 使用WebAuthn的注意事项

使用WebAuthn时需要注意以下几点：
- 需要使用HTTPS协议或处于localhost环境下，以确保通信的安全性。
- 不同浏览器对WebAuthn的支持程度可能有所不同，开发者需要进行兼容性测试。
- 用户需要拥有支持WebAuthn的认证器，例如指纹识别设备、USB密钥等。
以上是对WebAuthn的详细解析，希望能帮助你更好地理解和应用这一无密码身份验证技术。

Learn more:
2023 年 11 月 23 日
什么是WebAuthn？
WebAuthn是一种无密码身份验证技术，它提供了一种更安全、更便捷的身份认证方式。下面将详细解析WebAuthn的工作原理和优势。

什么是WebAuthn？

WebAuthn是由W3C制定的Web身份认证标准，全称为Web Authentication。它使用公钥加密技术，允许用户通过生物特征（如指纹、面部识别）或硬件密钥（如USB密钥）来进行身份验证，从而实现更强大的身份认证。

WebAuthn的工作原理

WebAuthn的基本工作原理可以简单概括为以下几个步骤：
1. 用户注册：用户在第一次登录时，选择并注册一种或多种生物特征或硬件密钥作为身份认证凭证[2]。
2. 身份认证请求：用户在登录时，浏览器向服务器发送身份认证请求，请求身份验证[2]。
3. 凭证创建：服务器生成一次性的随机挑战，并将其发送给浏览器[2]。
4. 身份认证：浏览器使用注册的生物特征或硬件密钥对随机挑战进行签名，然后将签名和挑战发送给服务器[2]。
5. 身份认证验证：服务器验证签名和挑战的有效性，如果验证通过，则允许用户登录[2]。
WebAuthn的优势

WebAuthn具有以下优势：
1. 更安全的身份认证：WebAuthn使用公钥加密技术，保护用户的私钥不被传送到服务器，从而实现更安全的身份认证。即使服务器被攻击或数据泄露，用户的私钥仍然是安全的[2]。
2. 更便捷的身份认证：用户可以选择多种身份认证方式，并且在注册凭证后，无需再输入用户名和密码，即可进行身份认证[2]。
总结

WebAuthn是一种无密码身份验证技术，通过使用公钥加密技术和生物特征或硬件密钥进行身份认证，实现了更安全、更便捷的身份认证方式。它的工作原理简单明了，同时具有更安全的身份认证和更便捷的用户体验的优势。

Learn more:
2023 年 11 月 23 日
探索Zephyr-7B-β：一款掀起LLM新浪潮的强大语言模型

大家好，今天我要向你们介绍一个在人工智能领域中备受瞩目的明星——Zephyr-7B-β，这是一款性能高超的大型语言模型（LLM）。它的出现不仅改变了我们对AI的认知，更为我们的日常生活带来了无尽的可能。

Zephyr-7B-β是Zephyr系列的第二个模型，是基于Mistralai/Mistral-7B-v0.1并使用直接偏好优化（DPO）在公开可用的合成数据集上进行训练的微调版本。这款模型在发布时，在MT-Bench和AlpacaEval基准上的表现已经超越了许多其他同类产品，堪称7B类的聊天模型中的佼佼者。

Zephyr-7B-β：小巧却强大

虽然Zephyr-7B-β在模型大小上只有7B参数类似GPT的模型，但它在公开可用的合成数据集上进行微调后的性能却令人惊叹。特别是在MT-Bench的多个类别上，与Llama2-Chat-70B等较大的开放模型相比，Zephyr-7B-β具有较强的性能。

然而，无论任何事物都不可能完美，对于更复杂的任务，如编码和数学等，Zephyr-7B-β的表现仍有待提升。它在这些方面的表现暂时无法与更专业的模型相比，但我们相信，随着研究的深入，这种差距会逐步缩小。

Zephyr-7B-β：更多的可能性

Zephyr-7B-β最初是在经过过滤和预处理的UltraChat数据集上进行微调的，这个数据集包含了由ChatGPT生成的各种合成对话。随后，我们在openbmb/UltraFeedback数据集上进一步将模型与TRL的DPOTrainer对齐。这个数据集包含了按GPT-4排名的64k个提示和模型完成情况。

这就意味着，Zephyr-7B-β可以用于聊天，你可以查看我们的演示来测试其功能。同时，这款模型的代码已经在GitHub上开放，对于有兴趣的同学，可以自行下载研究。

Zephyr-7B-β：未来的挑战

然而，我们也需要看到，尽管Zephyr-7B-β的表现在许多方面都非常出色，但它也存在一些问题。例如，它尚未通过RLHF等技术与人类偏好保持一致，也未通过ChatGPT等响应的循环过滤进行部署，因此该模型可能会产生有问题的输出，特别是在提示时。

此外，尽管我们知道用于训练Zephyr-7B-β的数据集主要包含了由ChatGPT生成的各种合成对话，但我们仍然不清楚用于训练基本模型（mistralai/Mistral-7B-v0.1）的语料库的大小和组成。这些问题都是我们在未来需要解决的挑战。

Zephyr-7B-β的出现，无疑为我们展示了大型语言模型的强大潜力。通过不断的研究和改进，我们有理由相信，未来的Zephyr系列将会带给我们更多的惊喜～

2023 年 11 月 23 日
一次神奇的AI旅程：Zephyr-7B模型与Lora训练

大家好，今天我要给大家分享的是关于神奇的Zephyr-7B模型和Lora训练的故事。这是一次跨越三大洲的合作，让我们一起探索这个令人兴奋的AI世界。

Zephyr：直接蒸馏语言模型对齐

在 AI 的世界中，出现了一款名为 Zephyr-7B 的模型，它的出现可谓是一次划时代的突破。那么，Zephyr-7B 是如何诞生的呢？

几个月之前，一个位于巴黎的团队发布了他们的第一个模型：Mistral 7B。这个模型虽然体积小巧，但性能强大，在基准测试中超过了所有同类模型，更令人振奋的是，这是一个开源项目。

然后，Hugging Face H4团队的两名成员在一次小聚中，讨论了使用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性。他们在 HF hub 上找到了一些公开的数据集，包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集：UltraFeedback 和 UltraChat。

UltraFeedback 是一个大规模、多样化、细粒度的偏好数据集。UltraChat 则是高质量的对话数据集，包含了 150 余万条多轮指令数据。

经过几轮实验，使用 OpenBMB 两个数据集训练出来的新模型非常强大，是 H4 团队在伯克利和斯坦福的基准测试中见过的最强模型，并在之后被命名为 Zephyr模型。Zephyr-7B-alpha 的 MT-Bench 平均得分7.09，超越了 Llama2-70B-Chat。

这引发了一个重要的思考：一个基于高质量数据集的 7B 模型竟然打败了参数十倍之大的 LLaMA2-70B-Chat，这说明了什么？这说明，底层的数据工作才是最稀缺的和有时间价值的，这或许是各家各派大模型在百模大战中的突破口之一。

然后我们看到，Zephyr的优秀性能还得归功于使用了由斯坦福大学和CZ Biohub不久前合作提出的 DPO 方法。与传统的 PPO 强化学习方法不同，DPO 方法舍弃了强化学习，要比 PPO 稳定得多。

DPO的简单解释是：它绕过了建模奖励函数，相当于直接在偏好数据上优化模型，它解决了人类反馈的强化学习训练难、训练成本高的问题。

Zephyr-7B-beta的变革

进一步的，开发二代模型 Zephyr-7B-beta 时，团队思考了大模型所用的蒸馏监督微调（dSFT）。然而，用这种方法模型是不对齐的，不能很好地生成符合用户意图的输出。

所以，团队尝试使用AI反馈（AI Feedback，AIF）的偏好数据，用一个“教师模型”对输出进行排名，形成一个数据集，然后应用蒸馏直接偏好优化（dDPO）进行训练。这样，训练出的模型就能更好地对齐用户的意图，生成更好的输出。

Zephyr-7B-beta的测试数据也验证了这种方法的有效性。比对7B版本的模型，这款新模型在MT-Bench上的平均得分达到了7.18，几乎是目前所有模型中的最高分。

低成本训练Zephyr

接下来，我们来看看如何用低成本的方式训练Zephyr。这里就要提到一个名为”alignment-handbook”的项目。

“alignment-handbook”是一个非常实用的项目，为大家提供了全面的训练步骤，包括环境配置、SFT训练、DPO训练等。通过这个指南，你可以方便地在自己的电脑上完成训练。

使用SFT训练，我们可以在预训练模型的基础上进行微调，以达到我们期望的效果。而DPO训练则可以直接在偏好数据上优化模型。这两种训练方法都非常高效，可以在短时间内得到高质量的模型。

Lora训练

最后，我要与大家分享的是Lora训练。Lora是一种新的训练方法，通过给模型添加一些额外的参数，可以让模型的性能得到进一步的提升。

Lora训练虽然需要额外的计算资源，但它可以显著提高模型的性能。所以，如果你有足够的计算资源，我强烈推荐你尝试使用Lora训练。

总结

在这篇文章中，我向大家介绍了Zephyr-7B模型和Lora训练的神奇故事。希望通过这个故事，你能感受到AI技术的魅力，也希望你能够通过学习和实践，将这些技术应用到你的工作和生活中，让AI技术为你带来更多的便利和乐趣。

在未来的日子里，我相信我们会看到更多的突破和创新。让我们期待这个未来，一起探索这个充满无限可能的AI世界。

2023 年 11 月 23 日
带你走进MathJax：让所有浏览器都能美绘数学

大家好，欢迎来到今天的博客，我将向大家介绍一个名为MathJax的神奇工具，它将为你打开一个全新的、美丽的数学世界。对，你没有听错，这是一个能让所有浏览器都能优雅地展示数学公式的工具。无需为了阅读者进行繁琐的设置，一切都如你所愿，就是这么简单！

MathJax：变革者

MathJax，就是它，能够将你的传统印刷内容转化为现代化、易于访问的网页内容和电子书。无论是旧时的文档，还是新的在线内容，MathJax都能轻松转化，为特殊需要的读者提供全面的访问体验。更妙的是，MathJax也可以在服务器端工作流中使用，以准备可离线查看的内容或生成与现代电子书阅读器兼容的文档。只需要一次联系，我们就可以为你的机构提供有关内容转化服务的更多信息。

MathJax：教育者

你们的教育工作需要帮助吗？MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。无论是支持在线教学，还是在线考试，MathJax都能提供帮助。我们甚至可以为你的教师、教员和员工提供培训，教他们如何准备全面可访问的数学课程材料。

MathJax：顾问

当然，我们的服务并非只有以上这些。MathJax是一个非常灵活的系统，能够根据任何应用和任何内容的需求进行调整和定制。无论是静态网站还是高动态环境，无论是简单的教学讲义还是科学出版中的精密排版，MathJax都能胜任。不仅如此，我们还关注网页内容、软件解决方案和工作流的无障碍访问，我们会与你的工作人员一起工作，确保你的材料是完全无障碍的。

MathJax：艺术家

MathJax不仅仅是工具，更是艺术的创造者。它使用CSS和网络字体或SVG，而非位图图像或Flash，因此，无论怎样缩放，公式都能与周围的文本保持一致。MathJax的输入和输出模块也极其灵活，可以使用MathML，TeX和ASCIImath作为输入，生成HTML+CSS，SVG或MathML作为输出。而且MathJax与屏幕阅读器兼容，提供表达式缩放和交互式探索，你还可以将公式复制到Office，LaTeX，wiki和其他软件中。

MathJax：无障碍和可重用

MathJax提供了一套强大的无障碍扩展，这些扩展在客户端提供导航、探索和发声。通过MathJax的上下文菜单，你可以访问任何数学表达式的源代码，无论是MathML格式，还是原始的TeX或AsciiMath格式。

是的，这就是MathJax，一个美丽的、无障碍的、可重用的数学显示引擎。它是你的内容变革者，是你的教育者，是你的顾问，也是你的艺术家。让我们一起，用MathJax打造一个美丽、访问性强、充满创新的数学世界！

结语

在本篇博客中，我向大家介绍了MathJax这个神奇的工具。它能够让所有的浏览器都能优雅地展示数学公式，无需为了阅读者进行繁琐的设置，一切都如你所愿。MathJax不仅可以帮助你将传统印刷内容转化为现代化、易于访问的网页内容和电子书，还可以在服务器端工作流中使用，为特殊需要的读者提供全面的访问体验。此外，MathJax团队也是教育家，他们愿意培训你的员工使用我们的资源来准备在线教学材料和创建易于访问的STEM内容。

无论你是老师、学生，还是科研人员，只要你与数学打交道，MathJax都能为你提供帮助。如果你有任何疑问，或者想要了解更多关于MathJax的信息，欢迎联系我们。记住，数学是美丽的，而MathJax，就是展示这种美丽的最佳工具。

感谢你的阅读，我们下次再见！

2023 年 11 月 22 日
弥合神经辐射场之间的差距采用渐进式体积蒸馏的架构
神经辐射场（NeRF）方法已被证明是 3D 场景的紧凑、高质量和多功能表示，并支持编辑、检索、导航等下游任务。各种神经架构都在争夺NeRF的核心结构，包括普通的多层感知器（MLP）、稀疏张量、低秩张量、哈希表及其组成。这些表示形式中的每一种都有其特定的权衡。例如，基于哈希表的表示允许更快的训练和渲染，但它们缺乏明确的几何含义，阻碍了下游任务，如空间关系感知编辑。在本文中，我们提出了渐进式体积蒸馏（PVD），这是一种系统的蒸馏方法，允许不同架构之间的任意转换，包括MLP、稀疏或低秩张量、哈希表及其组成。因此，PVD 使下游应用程序能够以事后方式对手头的任务进行最佳调整神经表示。转换速度很快，因为蒸馏是在不同级别的体积表示上逐步进行的，从浅到深。我们还采用了特殊的密度处理来处理其特定的数值不稳定问题。在NeRF-Synthetic、LLFF和TanksAndTemples数据集上验证了我们的方法。例如，使用 PVD，可以从基于哈希表的 Instant-NGP 模型中提炼出基于 MLP 的 NeRF 模型，其速度比从头开始训练原始 NeRF 快 10 倍~20 倍，同时实现卓越的合成质量水平。代码可在 https://github.com/megvii-research/AAAI2023-PVD 上获得。

Key Points
- 1. Novel view synthesis (NVS) 是一种生成 photo realistic 2D 图像的技术，用于三维场景的未知视角。NVS 已在渲染、定位和机器人手臂操作等领域得到广泛应用。最近开发的神经辐射场（NeRF）提供了神经建模能力。
  
  2. NeRF 可以显著提高 NVS 的质量，利用多层感知器（MLP）的强大泛化能力。采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  
  3. 特征张量过大导致寻找更紧凑表示的需求。TensorRF 等方法利用 VM（向量 – 矩阵）分解和序数分解（CPD）等方法实现特征张量的有效压缩。
  
  4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和动态场景建模。但使用显性或混合表示通常具有更快的训练速度，能更好地处理几何上的编辑。
  
  5. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  
  6. 在本文中，我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。
  
  7. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。
  
  8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。MLP 的输入是 5D 坐标，输出是体积密度和视相关颜色。
  
  9. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。
  
  10. Explicit representations 将场景直接放置在 3D 格中（巨大的张量）。NVS 领域已经进行了多次尝试。Barron 等人提出了一种方法。
  
  11. 我们试图在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不试图逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。
  
  12. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。
  
  13. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
  
  14. 接下来，我们将简要介绍一些基础知识，然后详细介绍我们的方法。
  
  15. NeRF 用一个隐函数将空间点 x = (x, y, z) 和视方向 d = (θ, φ) 映射到密度σ和颜色 c。对于沿光线方向 r 从点 o 出发的相应像素的 RGB 值ŷ(r)，通过 color c i 和空间点 x i = o + t i d 沿着光线采样得到：其中 T i = exp(-i-1j=1σiδi)，δi 是相邻样本之间的距离。
  
  16. 张量和张量低秩表示。Plenoxels 通过显式网格（张量）直接表示 3D 场景（Fridovich-Keil 等人，2022）。每个网格点都存储密度和球面谐波（SH）系数。颜色 c 根据 SH 和观察方向 d 计算。
Related Work
- 1. Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角（周等人，2018 年; 坎等人，2021 年; 西特曼，祖豪费和威斯坦，2019 年 a），并在渲染、定位和机器人手臂操作（Adamkiewicz 等人，2022 年; Moreau 等人，2022 年; Peng 等人，2021 年）等领域具有广泛的应用，特别是最近开发的神经辐射场（NeRF）提供了神经建模能力。
  2. 利用多层感知器（MLP）的强大泛化能力，NeRF 可以显著提高 NVS 的质量。
  3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
  5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
  6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  8. 在本文中，我们从另一个角度处理这个问题。我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。例如，当使用具有哈希表的教师模型蒸馏学生模型的显性表示时，现在可以从教师的速度中受益，同时仍然生成具有清晰几何结构的学
Method
- 作者通过以下方法取得结果:
  
  1. 利用 Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  2. 利用多层感知器 (MLP) 的强大泛化能力，显著提高 NVS 的质量。
  3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF(Chen 等人，2022 年) 利用 VM(向量 – 矩阵) 分解和序数分解 (CPD),Fridovich-Keil 等人利用张量的稀疏性，而 INGP(Müller 等人，2022 年) 利用多级哈希表实现特征张量的有效压缩。
  5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑 (例如颜色、照明变化和变形等),艺术的风格化和动态场景建模 (Tang 等人，2022 年; Kobayashi,Matsumoto 和 Sitzmann,2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年)。
  6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  8. 在本文中，作者提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。
  9. 作者还提出了一种方法，称为 PVD(渐进体积蒸馏),用于在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
  10. 作者还提出了一种基于统一视图的蒸馏方案，可以在不同的 NeRF 架构之间实现相互转换。作者得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表 (INGP) 和低秩张量 (TensorRF 中的 VM 分解)。
  11. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
  12. 接下来，作者简要介绍了一些基础知识，然后详细介绍了他们的方法。
Result
- 实验结果：
  
  1. 利用 Novel view synthesis (NVS) 生成了 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  2. NeRF 可以显著提高 NVS 的质量，同时采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  3. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
  4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
  5. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
  6. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，从浅到深，特别关注密度体积以获得更好的数值稳定性。
  7. PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
  8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。
  9. MLP 的输入是 5D 坐标（空间位置 [x, y, z] 和查看方向 [θ, φ]，输出是体积密度和视相关颜色）。
  10. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。
  11. Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。
  12. explicit representations 将场景直接放置在 3D 格中（巨大的张量）。
  13. 在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。
  14. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。
  15. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
Conclusion
- 1. 作者在这篇论文中得到的主要结论如下：
  * Novel view synthesis (NVS) 技术可以生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
  * NeRF 模型可以显著提高 NVS 的质量，而采用特征张量作为辅助的显性表示可以减轻 MLP 的记忆场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
  * 特征张量过大导致寻找更紧凑表示的需求，因此作者提出了一些方法，如 TensorRF，利用 VM（向量 – 矩阵）分解和序数分解实现特征张量的有效压缩。
  * 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和艺术的风格化和动态场景建模。
  * 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑。
  * 选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
  * 该论文提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。
  * 这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。
  * 作者还提出了一种 PVD（渐进体积蒸馏）方法，可以在不同体积表示水平上操作的蒸馏方法，以获得更好的数值稳定性。
2023 年 11 月 22 日
在少样本学习中双曲与欧几里得嵌入
最近在表示学习领域的研究表明，层次数据在双曲空间中可以得到低维且高度信息丰富的表示。然而，尽管在图像识别中双曲嵌入已经引起了人们的关注，但它们的优化仍然容易受到数值障碍的影响。此外，与传统欧氏特征相比，尚不清楚哪些应用最有可能从双曲性所施加的隐式偏差中受益。在本文中，我们关注原型双曲神经网络。特别地，高维空间中双曲嵌入趋向于收敛到Poincaré球体的边界，以及这对少样本分类的影响。我们发现，在公共双曲半径下的双曲嵌入可以获得最佳少样本结果。与之前的基准结果相比，我们证明了使用欧氏度量的固定半径编码器可以实现更好的性能，而不管嵌入维数如何。
- 重点：
  1. 超球面（hyperbolic space）与欧氏空间（Euclidean space）相似，但曲率不同。
  2. 超球面存在多种同形模型，其中最常见的模型是超球面（hyperboloid）和波恩卡雷球（Poincaré ball）。
  3. 在机器学习中，超球面模型最常见的应用是波恩卡雷球模型。
  4. 波恩卡雷球模型可以从一个超球面模型（hyperboloid model）得到。
  5. 在本文中，我们将使用波恩卡雷球模型，该模型可以从超球面模型（hyperboloid model）得到。
  6. 考虑 Minkowski 空间 Rd，1={x=(x1, …, xd+1)∈Rd×R}，以及双线性形式（Lorentz 伪标量）L⟨x, x⟩。
  7. L 形式在 Rd，1 上不是正定，但在 d-hyperboloid 上半平面内的曲率 k<0 时，是正定的。
  8. 我们可以通过包容映射ϕ将波恩卡雷球模型从超球面模型得到。
  9. 波恩卡雷球模型在原点处的指数映射是 TPd k → Pd k。
  10. 这使得我们可以将欧氏空间的神经网络转换为超球空间的神经网络。
  11. 在波恩卡雷球模型中，从任何∈Pd k 的 x 和 y 之间的最短路径距离可以通过计算 Pincaré球（Poincaré ball）得到。
  12. Ressler 等人提出的剪枝策略包括为 f(x; θ) 设置最大幅度 c，将波恩卡雷球缩小到半径为 c 的球中。
  13. 在训练过程中，对于合适的损失函数 L，以及 z := h(x; θ)∈Pd k，可以对欧氏梯度∇z L 进行反向传播（见 [13] 的实现），或者将其转换为 Riemannian 梯度通过反比例缩放 grad z L = λ(z) -2 ∇z L(z)，如 [12] 中所示。
2023 年 11 月 22 日
大型语言模型是上下文语义推理器，而不是符号推理者
大规模语言模型（LLM）的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用，但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中，我们假设在推理过程中，所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同，LLM的语义表示可以在标记之间建立强烈的联系，从而组成一个肤浅的逻辑链。为了测试我们的假设，我们从语言推理过程中解耦语义，并评估三种推理能力，即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时，LLM的表现要好得多，但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力，并激励研究揭示黑盒LLM中存在的魔力。总的来说，我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。

Introduction
- 近年来，大型语言模型（LLMs）已经在各种自然语言任务中取得了显著的性能，包括问答、文本摘要、机器翻译、逻辑推理等。这些成功主要归功于 LLMs 能够利用“零次”或“几次”学习方法而无需任何梯度更新 – 任务描述或几个例子来引导其推理过程 [1][2][3][4]。一个典型的例子是“链式思维”（CoT）方法，涉及推理演示或简单的提示，例如“让我们一步一步地思考”来执行复杂推理任务 [5,6]。尽管 LLMs 具有强大的上下文学习能力，但它们在给定上下文中的运作机制仍不清楚。先前的研究调查了给定示例中哪些方面有助于最终任务绩效，包括地面真实标签和示例顺序 [7][8][9]。另一条线的工作重点在于解释和利用上下文学习（ICL）机制 [10][11][12][13]。然而，它们共同的基本问题是，它们输入的上下文提示是基于自然语言查询来探究 LLMs 的推理能力。根据双过程理论 [14,15]，人类通常使用系统 II 的符号推理来解决复杂的逻辑推理问题。为了填补研究空白，我们通过将语义与语言推理过程解耦来系统地研究 LLMs 的上下文推理能力。通过广泛的实验，我们旨在回答以下研究问题：LLMs 是否在没有语义的情况下是好的上下文推理器？在本工作中，我们假设语言标记的学习确实在推理过程中发挥了重要作用，创建了标记之间强烈的连接，从而形成一个表面逻辑链（捷径），而不是真正执行正式推理过程。为了测试我们的假设，给定符号知识（事实和规则），我们在新提出的合成数据集上测试三种推理能力（即演绎、归纳和演绎推理）：由逻辑规则生成的封闭世界、无噪音的多跃点符号推理数据集 Symbolic Tree dataset。此外，我们还使用 ProofWriter [16] Depth-1 任务，该任务包含答案需要推理多达深度 D=1 的问题。我们的研究结果表明，语义确实在 LLMs 的上下文推理中发挥了重要作用：当语义与常识一致时，LLMs 表现相当良好；当语义与上下文背景不一致或为反常语义时，LLMs 无法通过利用上下文新知识来解决推理任务。此外，我们还研究了 LLMs 的忆
Related Works
- 1. 推理在 LLMs 中的重要性：推理是涉及逻辑推断和基于给定信息的合乎逻辑的结论的基本认知过程。在自然语言处理领域（NLP）早期就已经进行了大量的研究。
  2. 推理相关的基准：随着 NLP 领域的研究，各种关注推理的基准已经提出，包括自然语言推理（NLI）[18][19][20]、常识推理 [21,22]、多跳推理 [23,24] 等。
  3. 对 LLM 推理能力的兴趣增加：近年来，人们对研究 LLM 的推理能力越来越感兴趣。研究人员探讨了各种方法，以便让 LLM 在推理任务上表现更好。
  4. 链式思维（CoT）的提出：CoT 被提出，以便让模型生成一个推理路径，将复杂的推理分解成多个较小的步骤。在数学 [26]、常识 [21,27] 和符号推理 [5] 基准上，这种方法显著提高了性能。
  5. 模糊语义下的推理能力：尽管在各种推理基准上取得了显著的性能，但所有任务都富含语义。因此，还不清楚 LLM 的推理能力来自哪里。这促使我们研究在语义解耦的情况下分析 LLM 的推理能力。
  6. 上下文学习与推理能力的关系：上下文学习（ICL）与 LLM 的推理能力密切相关。ICL 是指语言模型在推理过程中从几个示例中学习并适应的能力。
  7. 改进 ICL 的研究：一些研究使用现有的无监督相似性度量或训练提示检索器来选择相关示例 [28][29][30]，others 将任务指令或不同的任务提示 [31,32] 纳入其中。
  8. ICL 性能的变异性：尽管在实证上取得了成功，但上下文示例的选择可能会导致很大的性能波动 [34,9]。最近的研究还探索了 ground-truth 标签和问题，ground-truth 输入输出映射是否必要，仅使用不正确的标签在示例中只略微降低性能 [35]，而上下文示例中的输入 – 标签一致性在 contextual demonstration 中起重要作用 [36]。
  9. 理解为什么上下文学习有效：一些研究提供了理论分析，将上下文学习表示为贝叶斯推断 [13]，或者某些示例中的 ICL 可以理解为已知学习算法的隐实现 [37]。然而，现有的上下文学习能力分析主要基于自然语言输入和丰富的语义信息。我们猜测，这个图 1 中的任务定义。记忆：从上下文知识中检索预测的事实。演绎：根据规则和事实预测预测的事实的正确性。归纳：根据具有相似模式的多个事实生成规则。类比：根据给定的规则和事实解释预测的事实。可能无法反映其在推导、归纳和类比方面的真正水平。
Task Definitions
- 1. 推理和记忆机制的定义及其任务描述
  2. 记忆在推理中的关键作用，包括存储推理过程中所需的上下文知识
  3. 可以将记忆视为深度为 0 的推理，其中问题是一个已知事实
  4. 推理任务涉及从存储的上下文知识中检索事实本身
  5. 语义对记忆的影响尚未得到充分研究，因此除了将语义从推理中解耦外，我们还试图研究语义对记忆的影响
  6. 使用新数据集微调语言模型，测试其在时间、效率和遗忘比例方面的表现
  7. 在评估是否成功添加或更新一个事实时，我们查询 LLM，使用关于尾实体的问
Semantics Matter in LLMs’ memorizing
- 本文比较了 LLM 的记忆力与对新符号和语义信息的记忆力。结果报告在表 1 中。从表 1 中，我们可以看到添加和更新语义知识的效率比添加和更新符号知识更高。这表明，与人类记忆能力相似，LLMs 更容易记住语义知识而不是符号知识（通常记忆符号比理解相关语义更具有挑战性）。然而，我们还在语义设置中的遗忘比例上发现，语义设置的遗忘比例比符号设置高。这可以归因于 LLMs 中语义知识具有更强的系数，这意味着在更新某些知识时，对系统中的其他知识产生更重大影响。在将 LLM 与图数据库 Neo4j 的比较中，我们可以看到，无论插入或编辑新的三元组，使用 Neo4j 进行知识更新都达到 100% 的准确率，无论知识是符号还是语义。预料之中，因为添加或更新的知识不与现有知识集重叠，所以不会对现有知识库产生进一步影响。这突出了使用非参数化知识库的优势。此外，与 LLM fine-tuning 的计算成本相比，使用优化存储机制的图数据库更新知识显著更快。这表明将 LLM 与非参数化知识库相结合可以提供在实际应用中更实际、更有效的途径。我们首先考虑将语义从上下文推理中解耦与保留原始语义之间的影响。在表 2 中，我们展示了在 Symbolic Tree 数据集上进行演绎、归纳和类比推理任务的结果。从表 2 中，我们观察到在两个演绎和归纳推理场景中，语义设置显著优于符号设置。值得注意的是，在归纳实验中，语义设置比符号设置大约高 30% 的准确度。这表明，在推理过程中保留丰富的语义可以使 LLM 的表现更好。虽然类比推理中，符号设置与语义设置的结果相当，但重要的是要注意，类比推理任务中的长上下文知识可能增加从记忆中选择相关信息和推理的难度。为了进一步研究这个问题，我们在一个更小的 Symbolic Tree 数据集上进行了额外的实验，结果在附录 O 中证实了语义设置仍然优于符号设置。这证实了保留语义可以提高 LLM 的推理能力。尽管 LLM 具有丰富的语义和强大的语言理解能力，但在与专门用于符号推理的方法相比，它们在推理任务上表现不佳。这表明，尽管 LLM 拥有广泛的知識庫和強大的語言理解能力，但 symbolic reasoning 不是它們相对于特定 symbolic-based reasoning 方法的主要优势。上述实验为语义对 LLM 推理的重要性提供了初步证据。
Conclusion and Discussion
- 本文介绍了首次对 LLM 推理能力中语义学角色的全面调查，通过将语义学与上下文提示分离。实验结果表明，当语义与常识一致时，LLM 表现相当良好；当语义与上下文不同时，LLM 无法通过利用上下文中的新知识来解决推理任务。这些发现揭示了语义在 LLM 推理能力中的重要性，并激发了对揭示黑盒 LLM 中存在的魔法的进一步研究。根据我们分析中发现的结论，我们指出了几个大型基础模型未来发展的潜在方向：更复杂的符号推理基准：为了提高 LLM 的上下文符号推理能力，需要开发具有分离语义的新数据集和更复杂的推理任务。这些基准应该挑战具有多样性和复杂符号知识的 LLM。结合外部非参数知识库：我们的实验结果表明，LLM 的存储能力与现有的图数据库方法不可比。这促使我们考虑将 LLM 与外部非参数知识库（如图数据库）集成，以提高其知识添加和更新。这种混合方法可以利用 LLM 的语言理解和非参数来源中存储的全面知识。提高处理上下文知识的能力：更强大和有力的能力来处理和记住上下文知识对于执行上下文推理任务至关重要。进一步的研究需要改进 LLM 在处理和利用上下文知识方面的能力。这包括开发机制，以更好地编码和检索相关信息，以便更有效地推理。从事实中，我们知道 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan)。因此，我们可以应用 L11，其中 A = Amelie，B = Thomas，C = Jonathan，D 和 E 为变量。这给我们带来了：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) ∧ r2(Amelie) → r14(Amelie, E)。由于我们知道 r2(Amelie) 是 F7 中的真实陈述，我们可以将上述声明简化为：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。现在，我们可以将 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan) 代入得到：r3(Thomas, Jonathan) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。我们可以看到，在选择 D = Alina 和 E = Jonathan 时，这个语句是正确的，因为我们有 r3(Thomas, Alina) 和 r3(Alina, Jonathan)。因此，r14(Amelie, Jonathan) 是正确的。答案是 True。因此，答案是 True。声明：r8(Leonie, Nico) 答案：我们可以使用 L5 来推断 r8(Leonie, Nico) 的真假。L5 说明，如果存在三个个体 A、B 和 C，使得 A 与 B 相关，B 与 C 相关，并且 A 具有某种属性（r2），则 A 与 C 以某种方式相关（r8）。使用这个规则，我们可以看到我们具有以下事实：-r3(Leonie, Emily) -r3(Emily, Nico) 因此，我们可以得出 r8(Leonie, Nico) 是真实的结论。声明：r7(Patrick, Alina) 答案：我们可以使用 L4：∀A, B：r3(A, B) ∧ r1(A) → r7(A, B) 来确定 r7(Patrick, Alina) 是真还是假。
2023 年 11 月 22 日

博客

Zephyr 7B Beta与GGUF的特色🌈

GGUF的兼容性⚙️

GGUF的量化方法🔬

如何下载GGUF文件💾

结语🎈

🎉 引言

💡 什么是Anima？

🚀 Anima的特性

🌟 AirLLM的升级

⭐ 结语

1. 引言

2. FlashFFTConv算法原理

3. FlashFFTConv的优势

4. FlashFFTConv的应用领域

5. 结论

参考文献

1. 什么是WebAuthn？

2. WebAuthn的工作原理

2.1 注册阶段

2.2 身份验证阶段

3. WebAuthn的优势和应用场景

4. 使用WebAuthn的注意事项

什么是WebAuthn？

WebAuthn的工作原理

WebAuthn的优势

总结

Zephyr-7B-β：小巧却强大

Zephyr-7B-β：更多的可能性

Zephyr-7B-β：未来的挑战

Zephyr：直接蒸馏语言模型对齐

Zephyr-7B-beta的变革

低成本训练Zephyr

Lora训练

总结

MathJax：变革者

MathJax：教育者

MathJax：顾问

MathJax：艺术家

MathJax：无障碍和可重用

结语