Monarch Mixer: 重新审视BERT，无需注意力机制或多层感知器

引言：
近年来，Transformer模型在自然语言处理和计算机视觉等领域取得了巨大成功。然而，我们是否只有Transformer这一种模型可以达到如此惊人的性能呢？这是一个我们一直在思考的问题。为了回答这个问题，斯坦福大学的研究人员提出了一种新的架构——Monarch Mixer（M2），它在序列长度和模型维度上都是次二次的，同时在性能上能够与Transformer媲美甚至超越。

友情链接：ACEJoy

Monarch Mixer架构：
Monarch Mixer的基本思想是用Monarch矩阵替换Transformer的主要组件。Monarch矩阵是一类结构化矩阵，它广义上推广了快速傅里叶变换（FFT），具有次二次的计算复杂度，同时在硬件上更加高效和表达能力强。Monarch Mixer使用由Monarch矩阵构建的层来实现序列内的混合（类似Transformer中的注意力机制）和模型维度上的混合（类似Transformer中的多层感知器）。与MLP Mixer和ConvMixer等工作类似，Monarch Mixer将所有组件替换为单一的原语，从而实现了全面的次二次架构。

Monarch Mixer与BERT的结合：
作为对这一思想的首次验证，研究人员选择了BERT作为目标模型。他们将BERT中的注意力机制替换为受到注意力自由模型的启发，并用一些简单的块对角矩阵替换了MLP。所有这些操作都可以用Monarch矩阵来实现。此外，他们还对模型进行了一些微调，如添加额外的卷积连接和在微调过程中使用平均池化等。通过这些改进，他们成功地构建了Monarch Mixer BERT（M2-BERT）模型。

M2-BERT的性能：
研究人员对M2-BERT模型进行了评估，并与标准的BERT模型进行了比较。令人惊讶的是，即使在参数数量较少的情况下，M2-BERT模型的性能也相当不错。例如，M2-BERT-base模型（80M参数）在GLUE任务上的平均得分超过了标准BERT-base模型（110M参数）。此外，通过参数匹配，M2-BERT-base模型的性能还有进一步提升。

长序列的优势：
Monarch Mixer架构的一个潜在优势是在处理长序列时的速度和可扩展性。由于M2在模型维度上是次二次的，因此可以减少计算量。而序列混合器在序列长度上也是次二次的，这意味着它具有处理更长序列的潜力。

结论：
Monarch Mixer是一种新颖的架构，它通过使用次二次的Monarch矩阵替换Transformer的组件，实现了与Transformer相媲美甚至超越的性能。尽管目前还处于早期阶段，但M2-BERT模型已经展现出了很大的潜力。未来的研究将进一步探索Monarch Mixer架构的优化和应用。

Learn more:

发表评论 取消回复

发表评论取消回复