深度学习的成功离不开反向传播(BP)算法,但BP也面临两大挑战:计算效率低和生物学上不合理。为了解决这些问题,研究人员提出了局部监督学习,主要包括局部学习(LL)和前向学习(FL)两种方法。
友情链接:ACEJoy
现有方法的局限性
LL通过辅助网络实现了与BP相当的性能,但增加了内存和参数开销。FL则完全摒弃了BP和辅助网络,但性能不如BP。现有的FL方法主要采用对比学习框架,但容易受到与任务无关信息的影响,导致性能下降。
字典对比学习(DCL)方法
为了解决这一问题,研究人员提出了字典对比学习(DCL)方法。DCL的核心思想是优化局部特征与标签嵌入向量之间的相似度,而不是像传统对比学习那样优化特征之间的相似度。
DCL方法包括两个版本:
- 静态版本(DCL-S):使用固定的标签嵌入向量,适用于FL场景
- 自适应版本(DCL):使用可更新的标签嵌入向量,性能接近BP和LL
DCL的优势
- 性能优势:
- 静态版本在FL场景中显著优于现有方法
- 自适应版本接近BP和LL的性能
- 效率优势:
- 比LL方法使用更少的参数
- 内存效率更高
- 可解释性:
- 通过标签嵌入向量可以生成显著性图,解释模型决策
- 语义学习能力:
- 标签嵌入向量能够学习到语义关系
实验结果
- 在MNIST、CIFAR-10和CIFAR-100数据集上,DCL-S显著优于其他FL方法
- 在多个数据集上,DCL的性能接近或超过BP和LL方法
- DCL能够有效降低对任务无关信息的依赖
- 自适应标签嵌入比静态嵌入效果更好
- 标签嵌入向量展现出良好的语义学习能力和可解释性
结论
DCL为深度学习提供了一种新的训练范式,在不使用辅助网络的情况下也能有效去除任务无关信息,实现高效的局部监督学习。这项工作为未来发展BP的替代方案开辟了一条有价值的道路。
参考文献:
- Choi, S. et al. (2024). Dictionary Contrastive Learning for Efficient Local Supervision Without Auxiliary Networks. ICLR 2024.