以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖

前言

今天我们要聊的，是一篇名为《Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation》的论文。顾名思义，这篇论文探讨了如何更快、更好地蒸馏扩散模型。即便你对蒸馏一无所知，看到这里也不必担心，咱们一步步来。

友情链接：借一步背多分 ACEJoy

蒸馏模型：从繁到简的艺术

常规蒸馏步骤

蒸馏的常规步骤是什么呢？简单来说，就是随机采样大量输入，然后用扩散模型生成相应的输出，用这些输入输出作为训练数据对，来监督训练一个新模型。但是，这种方法需要教师模型迭代多次（比如1000次）才能生成高质量输出，费时费力，还容易造成效果损失。有没有更高效的方法呢？

Score Identity Distillation（SiD）

这篇论文提出了一种名为“Score identity Distillation（SiD）”的方法。虽然名字高大上，但其实思路很简单：它利用了一些恒等式来设计和推导整个框架。不过，这些恒等式本身并不新，名字只是为了显得高端而已。

重现江湖：从去噪自编码器到生成模型

初级形式

假设我们有一个训练好的教师扩散模型，它需要多步采样才能生成高质量图片。我们的目标是训练一个单步采样的学生模型，即一个类似GAN的生成器，只需输入噪声就能生成图像。如果我们有大量的输入输出对，那么直接监督训练就可以了，但如果没有呢？

SiD采用了一个看似绕但很聪明的思路：如果学生模型生成的数据分布和目标分布很相似，那么用学生模型生成的数据集去训练一个扩散模型，它也应该和教师模型相似。

点睛之笔

谈到GAN，有些人可能会“闻之色变”，因为它们容易训崩。但SiD提出了一个有效的解决方案：通过恒等变换，尽量消除优化目标对某些变量的依赖，使得训练更加稳定。

恒等变换

具体来看，SiD通过一系列恒等变换，将优化目标简化为一个更易处理的形式。这些变换利用了概率密度定义和贝叶斯公式，使得训练过程更高效。

实践中的挑战与解决方案

训练中的坑

虽然理论上SiD的方法看起来很美，但在实际操作中仍然存在一些挑战。例如，如何在不牺牲效果的前提下减少显存需求。论文提出了未来可以尝试对预训练模型加LoRA来进一步节省显存。

延伸思考

SiD的方法虽然已经很完善，但仍有改进空间。比如，是否可以进一步简化恒等变换，或者引入新的优化策略来提高训练效率。

文章小结

总的来说，SiD通过一系列精妙的恒等变换和优化策略，成功地将复杂的多步扩散模型蒸馏为单步生成模型。这不仅提高了生成效率，还减少了对训练数据和计算资源的需求。未来，随着更多改进和优化的引入，SiD有望在更加广泛的应用场景中展现其价值。

参考文献

苏剑林. (May. 01, 2024). 《以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖》[Blog post]. Retrieved from https://spaces.ac.cn/archives/10085

以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖

前言

蒸馏模型：从繁到简的艺术

常规蒸馏步骤

Score Identity Distillation（SiD）

重现江湖：从去噪自编码器到生成模型

初级形式

点睛之笔

恒等变换

实践中的挑战与解决方案

训练中的坑

延伸思考

文章小结

评论

发表回复取消回复

更多文章

🤔 多跳推理模型的“失败”诊断

从数据蒸馏到智慧火花的奇幻旅程

单词卡示例

🚀《探索语言模型的潜力：测试时缩放的全景调查》

以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖

前言

蒸馏模型：从繁到简的艺术

常规蒸馏步骤

Score Identity Distillation（SiD）

重现江湖：从去噪自编码器到生成模型

初级形式

点睛之笔

恒等变换

实践中的挑战与解决方案

训练中的坑

延伸思考

文章小结

评论

发表回复 取消回复

更多文章

🤔 多跳推理模型的“失败”诊断

从数据蒸馏到智慧火花的奇幻旅程

单词卡示例

🚀《探索语言模型的潜力：测试时缩放的全景调查》

发表回复取消回复