博客

  • 数据为王:深度部分标签学习中的候选标签集剪枝

    近年来,深度学习技术在各个领域取得了巨大成功,但其有效训练通常需要大量完美标注的数据,这在实际应用中是一个巨大的挑战。为了在数据质量和标注成本之间取得平衡,部分标签学习(PLL)应运而生。PLL 允许为每个训练样本分配一个候选标签集,其中只有一个是真实标签。

    传统的深度 PLL 研究主要从学习的角度出发,设计各种训练策略来解决标签歧义问题,例如识别候选标签集中隐藏的真实标签。然而,当候选标签集的大小过大时,这些学习策略将难以找到真实标签,导致模型性能下降。

    本文提出了一种新的数据驱动方法,称为候选标签集剪枝(CLSP),旨在以无训练的方式过滤掉候选标签集中潜在的错误标签。

    CLSP:数据中心的视角

    CLSP 的核心思想是利用表示空间和候选标签空间之间的不一致性来识别错误标签。具体而言,对于一个训练样本的每个候选标签,如果它不是该样本在表示空间中最近邻样本的候选标签,那么它很可能是一个错误标签。

    基于此直觉,本文提出了一种基于实例的剪枝方案,该方案通过计算每个候选标签在最近邻样本中出现的频率来衡量其为错误标签的可能性。具体而言,对于样本 $x_i$ 的第 $j$ 个候选标签 $y_{ij}$,我们定义了一个指标 $O_{ij}$ 来衡量其为错误标签的可能性:

    $$
    O_{ij} = \sum_{v=1}^{k} \mathbb{I}[y_{ij} \notin Y_{p_{v}^{i}}], \quad \forall j \in Y_i,
    $$

    其中,$Y_{p_{v}^{i}}$ 表示 $x_i$ 的第 $v$ 个最近邻样本的候选标签集,$\mathbb{I}[.]$ 表示指示函数。

    然后,我们根据 $O_{ij}$ 的值来剪枝。具体而言,对于每个样本 $x_i$,我们从其候选标签集中删除 $O_{ij}$ 值最大的 $\gamma_i$ 个候选标签:

    $$
    r_{Y_i} = Top-\gamma_i-argmax_{j \in Y_i} (O_{ij}),
    $$

    其中,$Top-\gamma_i-argmax$ 返回 $O_{ij}$ 值最大的 $\gamma_i$ 个候选标签的索引。

    理论分析

    本文对 CLSP 的剪枝误差进行了理论分析,证明了剪枝误差的上界,并分析了表示质量对算法的影响。

    定理 1: 假设 PLL 数据集满足 $(k, \delta_k, \rho_k)$ 标签可区分性。对于每个 PLL 样本 $(x_i, Y_i)$,假设 $Y_i$ 中的第 $y$ 个标签是真实标签,$Y_i^{1}$ 中的第 $y_1$ 个标签是任意一个错误标签,即 $y_1 \neq y$。给定剪枝的标签数量 $\gamma_i$,则发生错误剪枝的概率可以被以下上界限制:

    $$
    P(O_{iy_1} < O_{iy}) \leq \sum_{j=1}^{k} \sum_{m=\xi_i}^{|Y_i^{1}|} \binom{|Y_i^{1}|}{m} \eta^m (1-\eta)^{|Y_i^{1}|-m} \delta_k \binom{k}{j},
    $$

    其中,$\xi_i = |Y_i^{1}| – \gamma_i + 1$,$\eta = I_{\rho_k}(k-j+1, j)$,$I_{\rho_k}(k, j)$ 表示正则化不完全贝塔函数,$\binom{n}{r}$ 表示组合公式。

    定理 2: 在定理 1 的假设下,当增加剪枝的标签数量(即 $\gamma_i^2 > \gamma_i^1$)时,额外的剪枝误差可以被以下上界限制:

    $$
    P(O_{iy_1} < O_{iy}) – P(O_{iy_1} < O_{iy}) \leq \sum_{j=1}^{k} \sum_{m=\xi_1^i}^{\xi_2^i-1} \binom{|Y_i^{1}|}{m} \eta^m (1-\eta)^{|Y_i^{1}|-m} \delta_k \binom{k}{j},
    $$

    其中,$\xi_1^i = |Y_i^{1}| – \gamma_i^1 + 1$,$\xi_2^i = |Y_i^{1}| – \gamma_i^2 + 1$,其他符号与定理 1 中相同。

    实验结果

    本文在 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 PASCAL VOC 等数据集上进行了大量实验,验证了 CLSP 方法的有效性。实验结果表明,CLSP 方法能够显著提高各种深度 PLL 方法的性能,尤其是在标签依赖和实例依赖的候选标签生成情况下。

    结论

    本文提出了一种新的数据驱动方法 CLSP,用于减少 PLL 样本的候选标签集大小。该方法基于表示空间中最近邻样本的“投票”机制来识别潜在的错误标签。理论分析表明,表示质量和标签歧义对剪枝误差的上界有显著影响。实验结果表明,CLSP 方法能够显著提高现有深度 PLL 方法的性能,尤其是在现实世界的数据集上。

    参考文献

    • Cour, T., Sapp, B., and Taskar, B. (2011). Learning from partial labels. Journal of Machine Learning Research, 12, 1501-1536.
    • Feng, L., Wang, C., Li, B., and Yang, G. (2020). Deep partial label learning with label disambiguation. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 4678-4685.
    • He, S., Wang, C., Yang, G., and Feng, L. (2022). Towards robust deep partial label learning with noisy candidate label sets. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 11489-11497.
    • Hong, J., Wang, C., Yang, G., and Feng, L. (2023). Towards robust deep partial label learning with long-tailed data distributions. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 12587-12596.
    • Johnson, J., Douze, M., Jégou, H., and others. (2019). Faiss: A library for efficient similarity search and clustering of dense vectors. Proceedings of the 31st International Conference on Neural Information Processing Systems, 7313-7323.
    • Li, B., Wang, C., Yang, G., and Feng, L. (2023a). LAVIS: A library for language-and-vision intelligence. arXiv preprint arXiv:2304.05403.
    • Li, J., Li, H., Gao, T., et al. (2023b). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders. arXiv preprint arXiv:2301.12546.
    • Li, X., Li, J., Yuan, L., et al. (2021). Aligning Books and Movies: Towards Unified Language-Vision Understanding with Contrastive Learning. arXiv preprint arXiv:2105.13240.
    • Lv, J., Wang, C., Feng, L., and Yang, G. (2020). Progressive purification for deep partial label learning. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 4686-4693.
    • Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv preprint arXiv:2103.00020.
    • Sener, O. and Savarese, S. (2018). Active learning for convolutional neural networks: A core-set approach. Proceedings of the 32nd International Conference on Machine Learning, 4898-4907.
    • Toneva, M., Gordon, A., Shlens, J., et al. (2018). An Empirical Study of Example Forgetting During Deep Neural Network Training. arXiv preprint arXiv:1806.07683.
    • Wang, C., Feng, L., Yang, G., et al. (2022a). Long-tailed Deep Partial Label Learning. arXiv preprint arXiv:2205.14887.
    • Wang, C., Feng, L., Yang, G., and Li, B. (2022b). Deep partial label learning with class prototypes. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 10595-10603.
    • Wang, C., Feng, L., Yang, G., et al. (2024). Towards robust deep partial label learning with noisy candidate label sets. Proceedings of the AAAI Conference on Artificial Intelligence, 38, 10073-10082.
    • Wen, Y., Wang, C., Yang, G., et al. (2021). Deep Partial Label Learning with Label Consistency Regularization. arXiv preprint arXiv:2104.00463.
    • Wu, Q., Wang, C., Yang, G., et al. (2022). Towards Robust Deep Partial Label Learning with Label Consistency Regularization. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 10493-10501.
    • Wu, Q., Wang, C., Yang, G., et al. (2022). Towards Robust Deep Partial Label Learning with Label Consistency Regularization. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 10493-10501.
    • Xu, C., Wang, C., Yang, G., et al. (2021). Deep Partial Label Learning with Instance-Dependent Candidate Label Sets. arXiv preprint arXiv:2104.00463.
    • Xu, C., Wang, C., Yang, G., et al. (2023a). Deep Partial Label Learning with Noisy Candidate Label Sets. arXiv preprint arXiv:2304.00463.
    • Xu, C., Wang, C., Yang, G., and Feng, L. (2023b). Progressive label purification for deep partial-label learning. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 12630-12639.
    • Yan, Y. and Guo, Y. (2023a). Robust Deep Partial Label Learning with Noisy Candidate Label Sets. arXiv preprint arXiv:2304.00463.
    • Yan, Y. and Guo, Y. (2023b). Towards Robust Deep Partial Label Learning with Noisy Candidate Label Sets. arXiv preprint arXiv:2304.00463.
    • Zeng, Z., Chen, X., Lin, Z., et al. (2013). Learning with Partial Labels for Image Tagging. arXiv preprint arXiv:1305.2093.
    • Zhang, M. and Yu, P. S. (2015). Partial label learning via matrix completion. Proceedings of the 32nd International Conference on Machine Learning, 127-136.
    • Zhang, M., Yu, P. S., and others. (2016). Learning from incomplete and noisy labels. Proceedings of the 33rd International Conference on Machine Learning, 1707-1715.
    • Zhang, Y., Wang, C., Yang, G., et al. (2022). Deep Partial Label Learning with Class Activation Value. arXiv preprint arXiv:2204.00463.
    • Zhao, J., Liu, Z., Wang, M., et al. (2021). Gradient-Based Data Pruning for Efficient Deep Learning. arXiv preprint arXiv:2102.06801.
    • Zhou, Z. H. (2018). A brief introduction to weakly supervised learning. National Science Review, 5, 44-53.
    • Zhu, X., Li, Z., Gong, M., et al. (2022). Clusterability: A New Perspective for Deep Representation Learning. arXiv preprint arXiv:2203.01077.
  • 从长视频中学习多粒度对应关系:Norton 的噪声鲁棒时间最优传输

    近年来,视频语言预训练(VLP)成为视频理解领域的一种热门方法。尽管取得了令人瞩目的成果,但现有研究主要集中在学习短视频片段,而由于对长视频建模的计算成本过高,很少探索长期时间依赖关系。为了解决这个问题,一种可行的方案是学习视频片段和字幕之间的对应关系,然而这不可避免地会遇到多粒度噪声对应(MNC)问题。

    多粒度噪声对应 (MNC) 问题

    MNC 指的是视频片段和字幕之间存在两种不同粒度的错位:

    • 粗粒度错位(片段-字幕): 粗粒度错位包括异步和无关错位。异步错位指的是字幕和视频片段之间的时间错位,例如,当人们在实际执行动作之前或之后解释他们的动作时,就会出现这种错位。无关错位指的是与任何可用视频片段无法对齐的无关或无意义的字幕,反之亦然。
    • 细粒度错位(帧-词): 在每个视频片段中,叙述语句可能只与视觉帧部分相关。例如,字幕中的“糖放在上面”与视觉内容高度相关,而“看着糖浆起泡”则无关。无关的词语或帧会扭曲对关键词语和关键帧的识别,导致相似度测量不准确,进一步污染片段-字幕对齐。

    MNC 问题对有效的时序建模提出了重大挑战。

    Norton:一种噪声鲁棒时间最优传输方法

    为了解决 MNC 问题,本文提出了一种名为 Norton 的方法,它利用最优传输 (OT) 框架来解决多粒度噪声对应问题。Norton 使用视频-段落和片段-字幕对比损失来基于 OT 捕获长期依赖关系。

    视频-段落对比

    Norton 利用 OT 来测量视频片段和字幕之间的序列距离,从细粒度到粗粒度进行。

    • 细粒度对齐: Norton 使用一个 token-wise 的软最大操作符来识别每个片段-字幕对中的关键词语和关键帧,从而从细粒度的多模态交互中提高片段-字幕相似度的测量。
    • 粗粒度对齐: 基于片段-字幕相似度,Norton 通过最大化 OT 的全局对齐相似度来建立片段和字幕之间的灵活分配。根据传输分配,Norton 将每个视频片段重新对齐到多个相关字幕,反之亦然,从而减轻异步错位问题。为了进一步解决无关错位问题,Norton 引入了一个可对齐的提示桶,作为噪声片段或字幕的可对齐目标候选。通过丢弃与提示桶对齐的片段或字幕,Norton 在 OT 过程中有效地过滤掉了无意义的内容。

    片段-字幕对比

    Norton 通过 OT 来解决片段-字幕对比学习中的错误负样本问题。具体来说,语义相似的片段和字幕在对比学习中会被错误地视为负样本,从而影响片段的表示。Norton 利用批次内片段-字幕对的 OT 分配作为片段-字幕对比损失中的额外监督,从而利用潜在的错误负样本并改善时序学习。

    实验结果

    本文在视频检索、视频问答和动作分割等多个下游任务上验证了 Norton 的有效性。实验结果表明,Norton 在所有任务上都显著优于现有方法,证明了其在学习长期时间依赖关系和促进片段级表示学习方面的优势。

    总结

    Norton 是一种噪声鲁棒时间最优传输方法,它有效地解决了长视频中多粒度噪声对应问题,并通过利用 OT 来测量序列距离,显著降低了计算成本。Norton 的实验结果表明,该方法在视频理解任务中具有良好的性能和可扩展性。

    参考文献

    • Zhang, J., Lin, Y., Huang, Z., Liu, J., Wen, Z., & Peng, X. (2024). Multi-granularity correspondence learning from long-term noisy videos. In International Conference on Learning Representations.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的主要问题是在视频语言学习中,如何有效地从长期(long-term)且带有噪声的视频数据中学习时间上的对应关系(temporal correspondence)。具体来说,论文关注以下几个关键挑战:

    1. 长期时间依赖性(Long-term Temporal Dependencies):现有的视频语言预训练(VLP)方法主要关注短视频片段的学习,而忽略了长期时间依赖性。长期时间依赖性在理解视频中事件和过渡的关系中起着不可或缺的作用。
    2. 多粒度噪声对应(Multi-Granularity Noisy Correspondence, MNC):将长视频分割成短片段时,不可避免地会遇到粗粒度(clip-caption misalignment)和细粒度(frame-word misalignment)的噪声对应问题。这些问题阻碍了时间学习和视频理解。
    3. 计算成本(Computational Cost):直接对长视频进行建模需要大量的计算资源,这对于实际应用来说是一个重大挑战。

    为了解决这些问题,论文提出了一种名为NOise Robust Temporal Optimal traNsport(Norton)的方法,该方法在一个统一的最优传输(Optimal Transport, OT)框架中处理MNC问题。Norton通过视频段落和视频片段-标题对比损失来捕捉长期依赖性,并利用最优传输来测量串行距离。此外,Norton还引入了软最大算子(soft-maximum operator)来识别关键词汇和帧,以及一个可对齐的提示桶(alignable prompt bucket)来过滤无关内容,从而提高时间建模的准确性。

    Q: 有哪些相关研究?

    A: 论文中提到的相关研究主要集中在以下几个领域:

    1. 视频时间学习(Video Temporal Learning):这是视频理解中的一个关键但具有挑战性的话题。传统的方法侧重于将空间-时间操作集成到卷积或Transformer架构中。受图像-语言预训练方法的启发,最近的工作利用自然语言来指导视频时间学习。例如,”排序剪辑”(sorting the clips)方法涉及根据它们的顺序句子对视频剪辑进行排名。
    2. 视频-语言预训练(Video-Language Pre-training):视频-语言预训练在大规模数据集(如HowTo100M)的支持下取得了显着进展。由于文本描述通常与视觉内容不对齐,噪声对应学习(noisy correspondence learning)成为视频-语言预训练中的新趋势。
    3. 最优传输(Optimal Transport, OT):OT最初被提出来描述两个概率分布之间的距离。最近,OT在领域适应、聚类、文档匹配和串行对齐等领域引起了广泛关注。然而,这些工作并没有专门关注视频和文本的对齐,这是本研究的主要焦点。
    4. 噪声对应学习(Noisy Correspondence Learning in Video-Language Pre-training):在视频-语言预训练中,由于文本描述通常与视觉内容不对齐,噪声对应学习成为了一个新趋势。例如,MIL-NCE通过将每个视频剪辑与多个相邻句子对齐来减轻噪声的影响,而TAN提出了一种共同训练策略,使用相互一致性来过滤噪声对。
    5. 视频检索(Video Retrieval):视频检索任务旨在根据查询字幕找到相应的视频片段。这要求模型能够理解视频内容并准确地匹配查询和视频内容。
    6. 视频问答(VideoQA):视频问答任务要求模型理解视频内容并回答与视频相关的文本问题。这需要模型具备对视频内容的深入理解能力。
    7. 动作分割(Action Segmentation):动作分割任务假设每个视频与各种动作相关联。目标是确定每一秒的具体动作,这需要完全探索时间依赖性。

    这些相关研究为论文提出的Norton方法提供了背景和动机,同时也展示了在视频理解和视频-语言预训练领域中存在的挑战和机遇。

    Q: 论文如何解决这个问题?

    A: 论文提出了一个名为NOise Robust Temporal Optimal traNsport(Norton)的方法来解决长期视频中的多粒度噪声对应(MNC)问题。Norton方法的内核思想是在一个统一的最优传输(OT)框架中处理MNC问题,具体解决方案包括以下几个关键组件:

    1. 视频-段落对比学习(Video-Paragraph Contrastive Learning):Norton通过视频段落和视频片段-标题对比损失来捕捉长期依赖性。这种方法从细粒度到粗粒度的角度测量视频片段和标题之间的串行距离。
    2. 软最大算子(Soft-Maximum Operator):为了处理细粒度的帧-词不对齐问题,Norton引入了一个软最大算子来识别每个片段-标题对中的关键词汇和关键帧。这个算子通过改善细粒度的多模态交互来提高片段-标题相似性的测量。
    3. 可对齐的提示桶(Alignable Prompt Bucket):为了过滤掉无关的片段或标题,Norton引入了一个可对齐的提示桶。这个桶作为一个候选的可对齐目标,用于在OT过程中丢弃与噪声片段或标题对齐的内容。
    4. 故障负样本利用(Faulty Negative Exploitation):在片段-标题对比学习中,Norton通过OT来处理故障负样本问题。它利用OT分配作为额外的监督信息,利用潜在的故障负样本来改进时间学习。
    5. 最优传输(Optimal Transport):Norton使用OT来测量视频片段和标题之间的距离,并通过Sinkhorn迭代来解决OT问题,从而实现串行对齐。

    通过这些组件,Norton能够有效地处理长期视频中的噪声对应问题,同时保持计算效率。论文通过在视频检索、视频问答和动作分割等下游任务上的广泛实验验证了Norton方法的有效性。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来验证Norton方法的有效性,这些实验涵盖了多个下游任务,包括视频段落检索、文本到视频检索(clip-level)、视频问答(VideoQA)和动作分割(Action Segmentation)。以下是实验的详细描述:

    1. 视频段落检索(Video-Paragraph Retrieval)
      • 在YouCookII数据集上评估零样本(zero-shot)性能,使用背景移除(Background Removed)和背景保留(Background Kept)两种设置。
      • 使用三种标准策略:Caption Average (Cap. Avg.)、Dynamic Time Warping (DTW) 和 Ordered Temporal Alignment Module (OTAM)。
      • 报告了R@1、R@5和R@10等召回率指标。
    2. 文本到视频检索(Text-to-Video Retrieval, Clip-level)
      • 在YouCookII和MSR-VTT数据集上评估模型的迁移能力。
      • 使用支持集(SupportSet)和冻结(Frozen)等方法作为对比。
    3. 视频问答(VideoQA)
      • 在MSR-VTT数据集上进行多项选择视频问答实验。
      • 报告了监督(Supervised)和零样本(Zero-shot)的准确率。
    4. 动作分割(Action Segmentation)
      • 在COIN数据集上评估动作分割性能。
      • 使用VAVA、ActBERT、Drop-DTW、MIL-NCE、ClipBERT、TACo、VideoCLIP和TempCLR等方法作为基线。
    5. 消融研究(Ablation Study)
      • 在YouCookII数据集上进行消融实验,分析了故障负样本利用(Faulty Negative Exploitation)、最优传输在时间学习中的作用(OT in Temporal Learning)、细粒度对齐(Fine-grained Alignment)和可对齐的提示桶(Alignable Prompt Bucket)等设计选择对模型性能的影响。
    6. 训练效率讨论(Training Efficiency Discussion)
      • 对比了Norton方法与其他直接对长视频进行建模的方法在训练效率上的差异。
    7. 噪声对应分析(Robustness on Noisy Correspondence)
      • 在HTM-Align数据集上评估了不同方法在处理噪声对应问题上的有效性。
    8. 可视化(Visualization)
      • 展示了Norton方法在YouTube视频上的重新对齐(re-alignment)效果,与动态时间扭曲(Dynamic Time Warping, DTW)和普通最优传输(vanilla Optimal Transport)进行了对比。

    这些实验结果表明,Norton方法不仅在长期时间依赖性学习方面表现出色,而且在处理噪声对应问题方面也具有显着优势。此外,Norton在多个下游任务中都取得了良好的性能,证明了其在视频理解和视频-语言预训练领域的通用性和有效性。

    Q: 有什么可以进一步探索的点?

    A: 论文中提出了几个可以进一步探索的点,主要包括:

    1. 多模态噪声对应(Multi-modal Noisy Correspondence)
      • 虽然Norton方法解决了视频和文本之间的噪声对应问题,但视频通常包含视觉、文本和音频等多种模态。未来的工作可以探索如何在多模态场景中应用最优传输来处理更复杂的噪声对应问题。
    2. 利用噪声(Utilization of Noise)
      • 论文中提出了一个可对齐的提示桶来过滤无关内容,但未来的研究可以探索如何将这些噪声样本转化为训练过程中的有用信息,例如通过生成与不匹配视频片段相关的文本。
    3. 计算效率(Computational Efficiency)
      • 尽管Norton方法在计算效率上有所改进,但在处理大规模数据集时,最优传输的计算成本仍然是一个挑战。未来的工作可以探索更高效的算法来降低计算复杂度。
    4. 模型泛化能力(Model Generalization)
      • 虽然Norton在多个下游任务上表现良好,但未来的研究可以进一步测试其在不同类型和规模的数据集上的泛化能力,以及在更复杂的视频理解任务中的应用。
    5. 模型解释性(Model Interpretability)
      • 论文中没有详细讨论模型的解释性。未来的工作可以探索如何提高模型的可解释性,以便更好地理解模型是如何进行视频和文本对齐的。
    6. 跨领域应用(Cross-domain Applications)
      • Norton方法在视频理解领域表现出色,但未来的研究可以探索其在其他领域,如图像-文本检索、跨模态生成等任务中的应用。
    7. 模型鲁棒性(Model Robustness)
      • 未来的工作可以进一步研究模型在面对更极端噪声和异常情况时的鲁棒性,例如在视频质量较差或字幕信息不完整的情况下。
    8. 实时应用(Real-time Applications)
      • 考虑到实时视频处理的需求,未来的研究可以探索如何优化Norton方法以满足实时视频分析的计算需求。

    这些潜在的研究方向不仅有助于提高视频理解和视频-语言预训练的性能,而且可以推动多模态学习和计算机视觉领域的进一步发展。

    Q: 总结一下论文的主要内容

    A: 这篇论文提出了一种名为NOise Robust Temporal Optimal traNsport(Norton)的新方法,旨在解决长期视频中的多粒度噪声对应(MNC)问题。Norton通过最优传输(OT)框架来处理视频片段和字幕之间的粗粒度(clip-caption)和细粒度(frame-word)对齐问题。主要贡献和内容包括:

    1. 问题定义:论文首先定义了长期视频中存在的MNC问题,包括粗粒度的异步和不相关对齐,以及细粒度的帧-词对齐问题。
    2. 方法提出:Norton方法通过视频-段落对比损失和视频片段-字幕对比损失来捕捉长期依赖性。它利用OT来测量串行距离,并引入软最大算子来识别关键词汇和帧,以及可对齐的提示桶来过滤无关内容。
    3. 实验验证:在视频检索、视频问答和动作分割等下游任务上进行了广泛的实验,验证了Norton方法的有效性。实验结果表明,Norton在处理噪声对应问题和长期时间依赖性方面优于现有方法。
    4. 消融研究:通过消融实验,论文分析了Norton中各个组件的作用,如故障负样本利用、OT在时间学习中的作用、细粒度对齐和可对齐的提示桶。
    5. 训练效率:论文讨论了Norton方法在训练效率上的优势,特别是在处理长视频时,与直接对视频进行建模的方法相比,Norton显着降低了计算成本。
    6. 未来工作:论文提出了未来研究的方向,包括扩展到多模态噪声对应、利用噪声样本、提高计算效率、模型泛化能力、模型解释性、跨领域应用和实时应用等。

    总的来说,Norton方法为长期视频理解和视频-语言预训练领域提供了一种新的视角,特别是在处理噪声对应问题方面展现了其潜力。


  • 告别数据孤岛:用扩散模型合成混合类型表格数据

    在当今数据驱动的时代,表格数据无处不在,从客户信息到金融交易记录,再到科学实验数据,表格数据承载着海量的信息。然而,由于隐私保护、数据稀缺等原因,我们往往无法直接使用真实数据进行分析和建模。

    合成数据应运而生,它可以模拟真实数据的统计特性,为我们提供安全可靠的数据来源。近年来,合成数据生成技术取得了长足进步,但如何生成高质量的混合类型表格数据仍然是一个挑战。

    混合类型表格数据指的是包含数值型和类别型特征的数据,例如,客户信息表中可能包含年龄(数值型)、性别(类别型)、收入(数值型)等特征。传统的合成数据生成方法往往难以处理混合类型数据,因为它们无法有效地捕捉不同类型特征之间的复杂关系。

    TABSYN 应运而生,它是一种基于 扩散模型 的新型表格数据合成方法,能够有效地解决上述问题。

    TABSYN 的核心思想

    TABSYN 的核心思想是将原始表格数据映射到一个 连续的潜在空间 中,然后在这个潜在空间中训练一个扩散模型来学习潜在数据的分布。

    潜在空间 是一个抽象的空间,它可以将复杂的数据压缩成更简洁的表示。TABSYN 利用 变分自编码器 (VAE) 来构建潜在空间,VAE 能够将表格数据映射到一个 标准正态分布 的潜在空间,这使得后续的扩散模型训练变得更加容易。

    扩散模型 是一种强大的生成模型,它通过逐步向数据添加噪声来破坏数据,然后学习如何从噪声中恢复原始数据。TABSYN 在潜在空间中训练了一个 基于分数的扩散模型,这个模型能够学习潜在数据的分布,并生成新的潜在数据。

    TABSYN 的优势

    TABSYN 具有以下几个显著优势:

    • 通用性: TABSYN 可以处理各种类型的表格数据,包括数值型、类别型等。
    • 高质量: TABSYN 能够生成高质量的合成数据,它能够准确地模拟真实数据的统计特性,包括单列分布、列间相关性等。
    • 高速: TABSYN 的合成速度非常快,它只需要很少的逆向步骤就能生成高质量的合成数据。

    TABSYN 的应用场景

    TABSYN 在以下场景中具有广泛的应用:

    • 数据增强: TABSYN 可以用来生成额外的训练数据,从而提高机器学习模型的性能。
    • 隐私保护: TABSYN 可以用来生成合成数据,从而保护原始数据的隐私。
    • 缺失值填补: TABSYN 可以用来填补表格数据中的缺失值。

    实验结果

    论文作者对 TABSYN 进行了大量的实验,结果表明 TABSYN 在多个指标上都优于现有的合成数据生成方法。

    • TABSYN 在单列分布估计和列间相关性估计方面,分别将错误率降低了 86% 和 67%。
    • TABSYN 在机器学习效率和缺失值填补方面也表现出色。

    总结

    TABSYN 是一种基于扩散模型的混合类型表格数据合成方法,它能够有效地生成高质量的合成数据,并具有通用性、高质量和高速等优势。TABSYN 在数据增强、隐私保护和缺失值填补等方面具有广泛的应用前景。

    参考文献

    • Zhang, Hengrui, et al. “Mixed-type Tabular Data Synthesis with Score-Based Diffusion in Latent Space.” International Conference on Learning Representations, 2024.

    希望这篇文章能够帮助您更好地理解 TABSYN 的核心思想和优势。如果您想了解更多关于 TABSYN 的信息,请参考论文原文。

  • 让语言模型更懂你的喜好:Softmax Direct Preference Optimization 在推荐系统中的应用

    推荐系统旨在根据用户的偏好数据预测个性化的排名,例如购买、点击和评分等历史交互行为。随着语言模型(LM)的兴起,基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互行为转化为语言提示,并将正向项目作为目标响应,并使用语言建模损失来微调 LM。然而,当前的目标无法充分利用偏好数据,并且没有针对个性化排名任务进行优化,这阻碍了基于 LM 的推荐系统的性能。

    为了解决这个问题,本文提出了一种名为 Softmax-DPO (S-DPO) 的新方法,该方法将排名信息注入到 LM 中,帮助基于 LM 的推荐系统区分用户喜欢的项目和不喜欢的项目,而不仅仅关注正向项目。

    S-DPO 的优势

    S-DPO 借鉴了人类偏好对齐中 Direct Preference Optimization (DPO) 的最新进展,以及推荐系统中 softmax 损失的成功经验。它利用用户偏好数据中的多个负向项目,并为基于 LM 的推荐系统设计了一个 DPO 损失的替代版本,该版本与 softmax 采样策略相连。

    S-DPO 的优势主要体现在以下几个方面:

    • 专门针对个性化排名任务: S-DPO 是第一个专门为基于 LM 的推荐系统设计的个性化排名损失,它有效地利用了多个负向项目,并承认了偏好数据的重要性。
    • 更有效的排名梯度: 实验证明,S-DPO 提供了更有效的排名梯度,并减轻了 DPO 训练中与不稳定性相关的问题。
    • 与 softmax 损失的联系: 理论上,S-DPO 与负采样上的 softmax 损失(在自监督推荐中也称为对比损失,它实现了最先进的性能)相连。这种联系自然地突出了 S-DPO 的排名性能,并强调了多个负向项目的重要作用。
    • 挖掘困难负向样本: S-DPO 具有挖掘困难负向样本的副作用,类似于对比学习范式。这不仅提高了性能,而且加速了训练过程。

    S-DPO 的工作原理

    S-DPO 的工作原理可以概括为以下几个步骤:

    1. 监督微调: 首先,利用推荐特定数据对 LM 进行监督微调,以提高 LM 遵循指令的能力。
    2. 偏好对齐: 在偏好对齐阶段,S-DPO 将每个语言提示与正向项目和随机采样的多个负向项目配对,构建文本形式的偏好数据。
    3. Plackett-Luce 偏好模型: S-DPO 利用 Plackett-Luce 偏好模型来处理推荐任务中相对排名,而不是像传统 DPO 那样仅使用 Bradley-Terry 偏好模型处理成对数据。
    4. S-DPO 损失: S-DPO 将 Plackett-Luce 偏好模型与 DPO 损失相结合,构建了新的 S-DPO 损失函数,该函数利用多个负向项目来优化 LM 的排名能力。

    实验结果

    为了评估 S-DPO 的有效性,本文在三个真实世界基准数据集上进行了大量实验,包括 Movielens、Goodreads 和 LastFM。实验结果表明:

    • S-DPO 优于所有基线模型: S-DPO 在所有数据集上都优于所有基线模型,包括传统的推荐系统和基于 LM 的推荐系统。
    • S-DPO 缓解了 DPO 的数据似然下降问题: S-DPO 能够有效地缓解 DPO 训练中出现的数据似然下降问题。
    • 多个负向样本的优势: 实验表明,使用多个负向样本可以提高 S-DPO 的性能,这与自监督推荐中对比损失的优越性能相一致。

    总结

    本文提出了一种名为 S-DPO 的新方法,该方法将排名信息注入到 LM 中,帮助基于 LM 的推荐系统区分用户喜欢的项目和不喜欢的项目。S-DPO 能够有效地利用用户偏好数据中的多个负向项目,并提供更有效的排名梯度,从而提高基于 LM 的推荐系统的性能。S-DPO 的成功为未来的基于 LM 的推荐系统提供了宝贵的见解,并有可能惠及推荐系统以外的其他研究领域。


    https://arxiv.org/abs/2406.09215


    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的主要问题是现有基于语言模型(LM-based)推荐系统在个性化排名任务中的性能受限问题。具体来说,作者指出了以下几个关键问题:

    1. 未充分利用偏好数据:当前的LM-based推荐器通常使用语言模型损失(language modeling loss)来优化个性化排名目标,但这种损失函数并没有针对推荐任务中的用户偏好进行特别优化,导致未能充分利用用户的历史交互数据。
    2. 缺乏对负面项的考虑:现有的推荐系统在训练时往往只关注正面项(即用户偏好的项目),而忽略了负面项(用户不偏好的项目)在推荐过程中的作用,这限制了推荐系统与用户偏好的对齐。
    3. 推荐性能受限:由于上述问题,基于语言模型的推荐系统在个性化推荐任务中的表现并不理想,需要进一步优化以提升性能。

    为了解决这些问题,论文提出了一种新的损失函数——Softmax Direct Preference Optimization(S-DPO),它通过结合多个负面样本来优化语言模型,使其能够更好地区分用户偏好的项目和不偏好的项目,从而提高推荐系统的性能。

    Q: 有哪些相关研究?

    A: 论文中提到了多个与推荐系统和语言模型相关的研究工作,主要可以分为以下几个方面:

    1. 基于语言模型的推荐系统(LM-based Recommenders):
      • 利用语言模型的广泛知识库和强大的推理能力来进行个性化推荐。
      • 例如,通过将历史交互数据转换为语言提示,并进行上下文学习或微调语言模型。
    2. 增强型推荐系统(LM-enhanced Recommenders):
      • 将语言模型嵌入作为语义表示,提供对比信号或作为高级特征提取器,改善用户和物品特征的表示。
    3. 偏好对齐(Preference Alignment):
      • 包括使用人类标记的数据来对齐语言模型与人类偏好的方法,如强化学习从人类反馈(RLHF)和直接偏好优化(DPO)。
    4. 自监督学习(Self-supervised Learning):
      • 通过使用对比损失(contrastive loss)等方法,提高推荐系统在没有明确监督信号的情况下的性能。
    5. 推荐系统的评估和挑战
      • 论文中提到了一些关于推荐系统评估的研究,包括处理长串行数据、多模态数据等。
    6. 特定算法和技术
      • 论文中还提到了一些特定的算法和技术,如GRU4Rec、Caser、SASRec等传统推荐算法,以及LLaMA2、Chat-REC、TALLRec等基于语言模型的推荐方法。
    7. 损失函数和优化方法
      • 论文中讨论了不同的损失函数和优化策略,如softmax损失、BPR损失、DPO损失等,以及它们在推荐系统中的应用。
    8. 大型语言模型(Large Language Models, LLMs):
      • 论文中提到了一些关于大型语言模型的研究,探讨了它们在推荐系统中的应用潜力和挑战。

    这些研究为论文提出的S-DPO方法提供了理论和技术背景,同时也展示了推荐系统领域的最新进展。论文通过结合这些相关研究,提出了一种新的损失函数,旨在提高基于语言模型的推荐系统的性能。

    Q: 论文如何解决这个问题?

    A: 论文通过提出一种新的损失函数——Softmax Direct Preference Optimization(S-DPO)来解决现有基于语言模型(LM-based)推荐系统在个性化排名任务中的性能受限问题。具体解决方案包括以下几个关键步骤:

    1. 引入多个负面样本:S-DPO在用户偏好数据中引入多个负面样本(即用户不偏好的项目),而不仅仅是单个负面样本。这有助于更全面地建模用户偏好。
    2. 设计新的损失函数:S-DPO设计了一种新的损失函数,该函数结合了softmax采样策略和直接偏好优化(DPO)的概念。这种损失函数旨在优化语言模型,使其能够区分用户偏好的项目和不偏好的项目。
    3. 理论联系:论文在理论上将S-DPO与softmax损失和负采样损失联系起来,证明了S-DPO在推荐任务中的有效性,并强调了多个负面样本的重要性。
    4. 挖掘硬负样本:S-DPO具有挖掘硬负样本(hard negatives)的副作用,这些样本可以提供更大、更有效的梯度,从而加速模型的训练过程并提高推荐性能。
    5. 梯度分析:论文对S-DPO的梯度进行了分析,证明了其在优化过程中能够提供更有效的排名梯度,并且能够缓解DPO训练中的不稳定性。
    6. 实验验证:通过在三个真实世界数据集上的广泛实验,论文证明了S-DPO在有效建模用户偏好和提升推荐性能方面的优越性,同时解决了DPO的数据可能性下降问题。
    7. 代码开源:为了促进研究和进一步的开发,论文的代码已经在GitHub上公开,供其他研究者和开发者使用和参考。

    通过这些方法,S-DPO能够更好地利用用户偏好数据,优化个性化推荐任务的性能,并为基于语言模型的推荐系统提供了一种新的优化策略。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列的实验来评估提出的Softmax Direct Preference Optimization(S-DPO)方法,并与传统的推荐系统模型和基于语言模型的推荐系统进行了比较。以下是实验的主要方面:

    1. 数据集:实验使用了三个真实世界的基准数据集,分别是Movielens、Goodreads和LastFM。这些数据集在规模和领域上有所不同,以全面评估S-DPO的性能。
    2. 基线模型:S-DPO与传统推荐模型(如GRU4Rec、Caser、SASRec)和基于语言模型的推荐系统(如LLaMA2、Chat-REC、TALLRec、LLaRA)进行了比较。
    3. 性能指标:主要使用Hit Ratio@1(HR@1)作为性能评估指标,同时引入了Valid Ratio来评估基于语言模型的方法生成适当响应的能力。
    4. 实验设置:所有基于语言模型的推荐系统都在4个NVIDIA A100 GPU上实现。对于所有基于语言模型的推荐系统,进行了最多5个周期的监督微调。对于S-DPO及其变体,进行了额外的3个周期的偏好对齐阶段。
    5. 整体性能比较:通过表1展示了S-DPO与基线模型的比较结果,显示了S-DPO在所有数据集上一致优于所有传统推荐器和最先进的基于语言模型的推荐器。
    6. S-DPO研究
      • 消融研究:比较了S-DPO与仅使用单个负面样本的变体(即对偶DPO损失)以及监督微调(SFT)的性能。
      • 负面样本数量研究:探讨了在偏好数据中使用多个负面样本对S-DPO性能的影响。
      • β值研究:研究了S-DPO中的超参数β对性能的影响。
    7. 梯度分析:对S-DPO的梯度进行了分析,以证明其在优化过程中的有效性。
    8. 损失分析:提供了S-DPO和DPO在验证损失上的趋势比较,以及优选项目奖励的比较。
    9. 代码开源:论文提供了S-DPO的代码,以便其他研究者可以复现实验结果并在此基础上进行进一步的研究。

    通过这些实验,论文证明了S-DPO在个性化推荐任务中的有效性,并展示了其在不同数据集和不同设置下的性能优势。

    Q: 有什么可以进一步探索的点?

    A: 尽管论文提出了S-DPO这一有效的方法来提升基于语言模型的推荐系统性能,但仍有一些潜在的研究方向和问题可以进一步探索:

    1. 扩展负样本的数量:论文中提到,由于时间和计算资源的限制,负样本的数量被限制在15个。探索更多的负样本数量可能会进一步提升模型性能。
    2. 训练成本问题:随着负样本数量的增加,训练成本也会相应增加,尤其是在语言模型的背景下。研究如何平衡训练成本和模型性能是一个重要的问题。
    3. 深入理解Softmax排名损失:尽管S-DPO在推荐任务中显示出了优越的性能,但对于Softmax排名损失在语言模型中的工作原理仍需更深入的理论分析和实证研究。
    4. 跨领域的适用性:研究S-DPO在不同领域和不同类型的推荐系统中的适用性和性能表现,例如跨领域推荐、多模态推荐等。
    5. 优化算法:探索更有效的优化算法或学习率调度策略,以进一步提高S-DPO的训练效率和模型收敛速度。
    6. 模型泛化能力:研究S-DPO在面对新的用户或物品时的泛化能力,以及如何通过增量学习或持续学习来适应动态变化的数据分布。
    7. 解释性和透明度:提高模型的解释性,让用户和开发者更好地理解推荐背后的逻辑和决策过程。
    8. 鲁棒性和公平性:研究S-DPO在面对数据噪声、偏见或攻击时的鲁棒性,并探索如何提高推荐系统的公平性。
    9. 实际应用和部署:将S-DPO应用于实际的推荐系统场景,并研究其在现实世界中的部署和性能表现。
    10. 与其他方法的集成:探索将S-DPO与其他推荐系统技术(如强化学习、图神经网络等)结合的可能性,以实现更全面的推荐效果。

    这些潜在的研究方向可以帮助研究者们更深入地理解S-DPO方法,并推动基于语言模型的推荐系统技术的发展。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容包括以下几个方面:

    1. 问题识别:论文指出了现有基于语言模型(LM-based)推荐系统在个性化排名任务中的性能受限问题,主要原因是未充分利用用户偏好数据,以及缺乏对负面项(用户不偏好的项目)的考虑。
    2. S-DPO方法提出:为了解决上述问题,论文提出了Softmax Direct Preference Optimization(S-DPO)方法,这是一种新的损失函数,通过结合多个负面样本来优化语言模型,使其能够更好地区分用户偏好的项目和不偏好的项目。
    3. 理论联系:论文在理论上将S-DPO与softmax损失和负采样损失联系起来,证明了S-DPO在推荐任务中的有效性,并强调了多个负面样本的重要性。
    4. 梯度分析:论文对S-DPO的梯度进行了分析,证明了其在优化过程中能够提供更有效的排名梯度,并且能够缓解DPO训练中的不稳定性。
    5. 实验验证:通过在三个真实世界数据集(Movielens、Goodreads和LastFM)上的广泛实验,论文证明了S-DPO在有效建模用户偏好和提升推荐性能方面的优越性,同时解决了DPO的数据可能性下降问题。
    6. 消融研究:论文通过消融研究探讨了S-DPO中多个负面样本和显式排名优化的重要性,以及β值对模型性能的影响。
    7. 代码开源:为了促进研究和进一步的开发,论文的代码已经在GitHub上公开。
    8. 未来工作:论文提出了一些潜在的研究方向,包括扩展负样本的数量、深入理解Softmax排名损失、跨领域的适用性等。

    总的来说,这篇论文通过提出S-DPO方法,有效地解决了基于语言模型的推荐系统在个性化排名任务中的性能受限问题,并在理论和实验上都证明了其有效性。同时,论文还提出了一些未来可能的研究方向,为推荐系统领域的进一步研究提供了思路。


  • 理解越狱成功:大型语言模型中潜在空间动态的研究

    在大规模生成式AI模型(Large Language Models, LLMs)越来越普及的今天,确保这些模型输出的安全性成为了一个重要问题。尽管模型提供者采用了强化学习(Reinforcement Learning from Human Feedback, RLHF)和安全过滤等方法来防止模型生成有害内容,但仍有一些方法可以绕过这些安全措施,导致模型输出不当内容。这些方法被称为“越狱”(jailbreaks)。本文旨在深入理解不同类型的越狱方法是如何工作的,并探讨可能的对策。

    研究方法

    数据与模型

    本研究聚焦于Vicuna 13B v1.5模型,并使用了一组包含24种越狱类型和352个有害提示的数据集。

    测量越狱成功

    越狱成功率(Attack Success Rate, ASR)是通过Llama Guard 2 8B和Llama 3 8B模型的判断以及人工检查来计算的。

    激活模式分析

    研究使用主成分分析(PCA)来分析模型不同层次中不同越狱类型的激活模式,以识别相似行为的簇。

    越狱向量的相似性与可转移性

    通过计算越狱提示和非越狱提示之间激活的平均差异,提取每种越狱类型的越狱向量。使用余弦相似度来评估这些向量之间的相似性,并测试这些向量在其他越狱类型中的转移性,即使用它们来引导模型远离生成有害输出。

    有害性抑制分析

    研究探讨越狱是否通过减少模型对提示有害性的感知来成功。通过分析模型在越狱提示上的激活与预定义的“有害性向量”之间的余弦相似度来实现这一点。

    关键发现

    激活聚类

    越狱激活根据其语义攻击类型聚类,表明存在共享的内部机制。

    越狱向量的相似性

    不同类别的越狱向量显示出显著的余弦相似性,表明这些向量可以在不同的越狱类型之间进行交叉缓解。

    越狱向量的可转移性

    使用一种越狱类型的越狱向量可以降低其他越狱类型的成功率,即使这些越狱类型在语义上不相似。

    有害性抑制

    成功的越狱,特别是涉及样式操纵和人格采用的越狱,有效地减少了模型对提示有害性的感知。

    启示

    开发稳健的对策

    研究结果表明,通过针对成功攻击的共享机制,可以开发出可推广的越狱对策。

    对越狱动态的机制理解

    本研究提供了关于越狱如何利用LLMs内部工作原理的宝贵见解,为更有效的对齐策略铺平了道路。

    限制

    • 本研究仅聚焦于单一LLM(Vicuna 13B v1.5),限制了发现的普遍性。
    • 研究主要考察了一组特定的越狱类型,可能忽略了其他成功的攻击向量。

    结论

    本文揭示了LLMs中越狱成功的潜在空间动态。研究结果强调了通过利用不同越狱类型的共享机制来开发稳健对策的潜力。需要进一步研究以探索这些发现对各种LLM架构和攻击策略的普遍性。

    参考文献

    1. Achiam, J., et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.
    2. Bai, Y., et al. (2022a). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
    3. Chao, P., et al. (2023). Jailbreaking black box large language models in twenty queries. arXiv preprint arXiv:2310.08419.
    4. Lee, A., et al. (2024). A mechanistic understanding of alignment algorithms: A case study on DPO and toxicity. arXiv preprint arXiv:2401.01967.
    5. Wei, A., et al. (2024). Jailbroken: How does LLM safety training fail? Advances in Neural Information Processing Systems, 36.
  • Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models – A Summary

    This research paper delves into the mechanisms behind the success of jailbreaking techniques used to elicit harmful responses from Large Language Models (LLMs) despite implemented safety measures.

    Here’s a breakdown of the key aspects:

    Problem: LLMs are trained to refuse harmful requests. However, jailbreak attacks can circumvent these safeguards, posing a challenge to model alignment.

    Goal: This study aims to understand how different jailbreak types work and identify potential countermeasures.

    Methodology:

    1. Data and Models: The research focuses on the Vicuna 13B v1.5 model and utilizes a dataset of 24 jailbreak types applied to 352 harmful prompts.
    2. Measuring Jailbreak Success: Jailbreak success is measured using Attack Success Rate (ASR) calculated based on the judgment of Llama Guard 2 8B, Llama 3 8B, and manual inspection.
    3. Analyzing Activation Patterns: Principal Component Analysis (PCA) is used to analyze the activation patterns of different jailbreak types in the model’s layers to identify clusters of similar behavior.
    4. Similarity and Transferability of Jailbreak Vectors: Jailbreak vectors are extracted for each type by calculating the mean difference in activations between jailbroken and non-jailbroken prompts. Cosine similarity is used to assess the similarity between these vectors. The transferability of these vectors is tested by using them to steer the model away from generating harmful outputs for other jailbreak types.
    5. Harmfulness Suppression Analysis: The study investigates whether jailbreaks succeed by reducing the model’s perception of harmfulness. This is done by analyzing the cosine similarity between the model’s activations on jailbroken prompts and a pre-defined “harmfulness vector.”

    Key Findings:

    • Activation Clustering: Jailbreak activations cluster according to their semantic attack type, suggesting shared underlying mechanisms.
    • Jailbreak Vector Similarity: Jailbreak vectors from different classes show significant cosine similarity, indicating potential for cross-mitigation.
    • Transferability of Jailbreak Vectors: Steering the model with a jailbreak vector from one class can reduce the success rate of other jailbreak types, even those semantically dissimilar.
    • Harmfulness Suppression: Successful jailbreaks, particularly those involving style manipulation and persona adoption, effectively reduce the model’s perception of harmfulness.

    Implications:

    • Developing Robust Countermeasures: The findings suggest that developing generalizable jailbreak countermeasures is possible by targeting the shared mechanisms of successful attacks.
    • Mechanistic Understanding of Jailbreak Dynamics: The research provides valuable insights into how jailbreaks exploit the internal workings of LLMs, paving the way for more effective alignment strategies.

    Limitations:

    • The study focuses on a single LLM (Vicuna 13B v1.5), limiting the generalizability of findings to other models.
    • The research primarily examines a specific set of jailbreak types, potentially overlooking other successful attack vectors.

    Conclusion:

    This paper sheds light on the latent space dynamics of jailbreak success in LLMs. The findings highlight the potential for developing robust countermeasures by leveraging the shared mechanisms underlying different jailbreak types. Further research is needed to explore the generalizability of these findings across various LLM architectures and attack strategies.

  • 人工智能模型的组合学习:理论与实践调查

    近年来,人工智能领域取得了长足进步,但要真正实现通用人工智能,我们还需要解决一个关键问题:组合学习。组合学习是指人工智能模型能够将基本概念组合起来,构建更复杂的概念的能力,这对于人类认知,尤其是语言理解和视觉感知至关重要。

    组合学习的五个方面

    组合学习的研究源于对人类语言和认知的观察。学者们从认知科学和语言学角度提出了几个衡量组合学习能力的关键方面:

    • 系统性或新组合 (Systematicity or Novel Composition):模型是否能够将已知的部件和规则系统地重新组合,形成新的表达?例如,模型是否能够理解从未见过的词语组合,例如“红色的大象”?
    • 生产力或长度泛化 (Productivity or Length Generalization):模型是否能够处理比训练数据中更长的表达?例如,模型是否能够理解包含多个嵌套句子的复杂句子?
    • 可替代性或同义词 (Substitutivity or Synonymity):模型是否能够识别同义词,并在表达中进行替换?例如,模型是否能够理解“甜甜圈”和“炸面包圈”是同一个意思?
    • 局部性 (Localism):模型是否能够理解局部和全局的组合关系?例如,模型是否能够理解一个词语在不同句子中的不同含义?
    • 过度泛化 (Overgeneralization):模型是否能够识别规则的例外情况?例如,模型是否能够理解“break”的过去式是“broke”,而不是“breaked”?

    组合学习的抽象任务和数据集

    为了评估人工智能模型的组合学习能力,学者们设计了一系列抽象任务和数据集。以下是一些常用的数据集:

    • CREPE (Compositional REPresentation Evaluation benchmark):该数据集包含多个子集,其中一个子集专门用于评估模型的系统性。任务是根据图片生成描述,测试模型是否能够将已知的概念组合成新的描述。
    • SCAN (Simplified CommAI Navigation tasks):该数据集用于评估模型在二维网格世界中根据自然语言指令进行导航的能力。其中一个子集用于评估模型的系统性,测试模型是否能够理解从未见过的指令组合。
    • gSCAN (Grounded SCAN):该数据集是 SCAN 的扩展版本,包含多个子集,每个子集都侧重于测试模型在特定方面的组合能力,例如新物体属性组合、新方向、新上下文引用等。
    • PCFG SET (Probabilistic Context Free Grammar String Edit Task):该数据集是一个人工翻译任务,测试模型是否能够将由概率上下文无关文法生成的序列翻译成表示其含义的序列。该数据集包含多个子集,用于测试系统性、生产力、可替代性、局部性和过度泛化等方面。
    • COGS (Compositional Generalization Challenge):该数据集是一个语义解析任务,测试模型是否能够理解英语句子并将其转化成形式化的语义表示。该数据集包含多个子集,用于测试系统性和生产力等方面。

    组合学习模型

    为了解决组合学习问题,学者们开发了多种人工智能模型,包括:

    • 基本神经网络 (Basic Neural Models):例如 LSTM (Long short-term memory) 和 CNN (Convolutional neural network) 等。这些模型在处理序列数据方面表现出色,但对于组合学习任务来说,它们的能力有限。
    • 基于 Transformer 的架构 (Transformer-based Architectures):Transformer 是一种近年来兴起的强大神经网络架构,在自然语言处理领域取得了巨大成功。大型语言模型 (LLM) 通常采用 Transformer 架构,并在许多组合学习任务中表现出色。
    • 神经符号架构 (Neuro-Symbolic Architectures):神经符号架构将神经网络和符号推理结合起来,旨在构建更强大的组合学习模型。例如,VisProg 是一种神经符号模型,能够根据自然语言指令解决视觉推理任务。

    理论发现

    学者们对组合学习模型进行了大量的理论研究,试图理解它们的局限性和能力。

    • 经典神经网络 (Classical Neural Network):理论研究表明,经典神经网络在处理复杂组合结构方面存在局限性。
    • Transformer:理论研究表明,Transformer 在处理长序列数据时存在精度问题,并且可能无法解决需要处理整个输入信息的任务。
    • 大型语言模型 (Large Language Models):理论研究表明,大型语言模型的组合学习能力可能存在争议,部分研究认为它们只是通过记忆和模式识别来解决问题,而并非真正理解了组合关系。

    讨论和未来方向

    尽管人工智能模型在组合学习方面取得了一定进展,但仍然存在一些挑战:

    • 合成和不现实的评估 (Synthetic and Unrealistic Evaluations):当前大多数组合学习评估方法使用的是合成数据,这可能无法反映真实世界的情况。
    • 大型语言模型评估的挑战 (LLM Evaluation Challenge):大型语言模型的训练数据规模庞大,这使得评估它们的组合学习能力变得困难,因为很难区分它们是真正理解了组合关系,还是仅仅记住了训练数据中的模式。
    • 理论方法的不一致性 (Inconsistent Theoretical Methodology):目前还没有一个完善的理论框架来评估大型语言模型的组合学习能力,这阻碍了我们对它们能力的深入理解。

    未来,组合学习研究需要关注以下方向:

    • 开发更现实的评估方法 (Develop More Realistic Evaluation Methods):使用真实世界数据来评估模型的组合学习能力。
    • 建立更完善的理论框架 (Establish a More Comprehensive Theoretical Framework):开发更严谨的理论方法来分析模型的组合学习能力。
    • 借鉴认知科学 (Draw Inspiration from Cognitive Science):从人类认知机制中汲取灵感,构建更强大的组合学习模型。

    组合学习是实现通用人工智能的关键,需要学者们持续研究和探索。相信随着技术的不断发展,人工智能模型的组合学习能力将会得到进一步提升。

    参考文献

    • [1] Kwangjun Ahn, Sébastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, and Yi Zhang. Learning threshold neurons via the “edge of stability”, 2023.
    • [2] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. Neural module networks, 2017.
    • [3] Dzmitry Bahdanau, Harm de Vries, Timothy J. O’Donnell, Shikhar Murty, Philippe Beaudoin, Yoshua Bengio, and Aaron Courville. Closure: Assessing systematic generalization of clevr models, 2020.
    • [4] Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: What is required and can it be learned?, 2019.
    • [5] David Barrett, Felix Hill, Adam Santoro, Ari Morcos, and Timothy Lillicrap. Measuring abstract reasoning in neural networks. In Jennifer Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 511–520. PMLR, 10–15 Jul 2018.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》主要探讨了人工智能模型在组合学习(compositional learning)方面的现状和挑战。组合学习是指理解和操作复杂结构的能力,通过将它们分解为更简单的部分,并重新组合这些部分以形成具有一致理解的新复杂概念。这种能力对于智能体在未观察到的情况下进行泛化学习至关重要。

    尽管组合学习在智能中扮演着内核角色,但目前缺乏系统化的理论及实验研究方法,这使得分析计算模型的组合学习能力变得困难。论文的主要贡献和解决的问题包括:

    1. 文献综述:系统回顾了关于人工智能模型组合学习的文献,并与认知科学研究创建了联系。
    2. 概念识别:识别了认知和语言学研究中组合性抽象概念,并将这些概念与语言和视觉模型在组合推理中面临的计算挑战联系起来。
    3. 定义和任务概述:提供了组合性的形式定义、任务、评估基准、计算模型的种类和理论发现的概览。
    4. 现代研究分析:涵盖了对大型语言模型的现代研究,以深入理解这些最先进人工智能模型展示的尖端组合能力,并指出了未来研究的重要方向。
    5. 理论和实验方法:检视了包括认知方面、计算模型和评估范式在内的组合学习多个方面,既包括理论研究也包括实践应用。

    论文的目标是为理解和改进人工智能模型在处理组合性任务时的能力提供更全面的视角,并推动该领域的研究发展。

    Q: 有哪些相关研究?

    A: 论文中提到了多项与组合学习相关的研究工作,以下是一些主要的研究方向和相关论文:

    1. 认知和语言学中的组合性概念:研究了人类如何从认知、语言学和心理学的角度学习组合性概念,如系统性(systematicity)、生成性(productivity)、替代性(substitutivity)、局部性(localism)和过度泛化(overgeneralization)。
    2. 计算模型:探讨了传统符号AI模型和神经网络模型在组合学习上的能力,包括:
      • 基本神经模型,如LSTM、CNN和Transformers。
      • 基于Transformer的架构,研究了不同配置的Transformer在组合任务上的表现。
      • 神经符号架构,结合了神经网络和符号推理,以提高组合泛化能力。
    3. 评估方法:分析了理论分析和实验分析两种评估方法,包括对不同计算模型的表达能力、组合学习能力和对未观察情况的泛化能力的评估。
    4. 数据集和基准:列举了多个用于评估组合学习的数据集,例如CREPE、SCAN、gSCAN、PCFG SET、CFQ、COGS等,这些数据集针对不同的组合性方面进行了设计。
    5. 理论发现:提供了对经典神经网络、Transformers和现代大型语言模型(LLMs)的组合泛化能力的理论研究结果。
    6. 特定架构的改进:讨论了针对提高组合泛化能力的特定架构改进,例如GroCoT(Grounded Compositional Transformer)和带有Pushdown Layers的Transformer。
    7. 神经符号模型:探讨了神经符号模型在组合学习中的应用,例如使用自然语言解释生成形式规范的方法。
    8. 人类与机器学习:讨论了人类在组合学习方面的认知研究,并与AI模型的表现进行了比较。
    9. 未来研究方向:指出了当前研究中的挑战,并提出了未来研究的方向,如更复杂的组合任务、数据污染问题、理论方法的一致性以及认知动机。

    这些研究工作涵盖了从基础理论到实际应用的广泛领域,旨在推动对人工智能模型组合学习能力的深入理解和改进。

    Q: 论文如何解决这个问题?

    A: 论文通过以下方式解决组合学习的问题:

    1. 文献综述:对现有的关于人工智能模型组合学习的文献进行全面的回顾,以了解当前的研究动态和存在的问题。
    2. 概念界定:明确定义了组合学习中的关键概念,如系统性、生成性、替代性、局部性和过度泛化,并讨论了这些概念在认知科学和语言学中的基础。
    3. 计算模型分析:分析了不同类型的计算模型,包括基本神经网络模型、基于Transformer的架构和神经符号架构,以及它们在处理组合学习任务时的能力和局限性。
    4. 评估方法:提出了评估模型组合学习能力的理论和实验方法,包括对模型表达能力、学习能力和泛化能力的评估。
    5. 数据集和基准:介绍了专门设计用于测试和评估模型组合学习能力的数据集和基准,如CREPE、SCAN、gSCAN等,并讨论了它们在不同组合性方面的应用。
    6. 理论发现:提供了对现有模型组合泛化能力的理论研究结果,包括对经典神经网络、Transformers和大型语言模型的理论分析。
    7. 模型改进建议:基于理论和实验分析的结果,提出了改进模型组合泛化能力的潜在方法,如架构调整、训练策略优化等。
    8. 未来研究方向:指出了当前研究中的挑战和不足,并提出了未来研究的方向,如更复杂的组合任务、数据污染问题、理论方法的一致性以及认知动机的集成。
    9. 跨学科视角:结合了认知科学、语言学和计算机科学等多个学科的研究成果,以促进对组合学习更深入的理解。

    通过这些方法,论文旨在为人工智能领域提供一个关于组合学习的全面视角,并推动该领域的发展。

    Q: 论文做了哪些实验?

    A: 论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》主要进行了以下类型的实验和分析:

    1. 理论分析:对现有的组合学习理论进行了深入分析,包括对不同计算模型的表达能力、组合学习能力和泛化能力的理论研究。
    2. 模型评估:对不同类型的神经网络模型,如LSTM、CNN和Transformers,在组合学习任务上的表现进行了评估。这包括对模型在系统性、生成性、替代性、局部性和过度泛化等不同组合性方面的表现进行测试。
    3. 数据集分析:使用了多个专门为组合学习设计的基准数据集,如CREPE、SCAN、gSCAN、PCFG SET、CFQ和COGS,来测试和评估模型的组合学习能力。
    4. 架构改进实验:对特定的神经网络架构进行了改进,以提高其在组合任务上的表现。例如,对Transformer架构进行了改进,以解决其在处理复杂组合任务时的局限性。
    5. 神经符号模型实验:探索了结合神经网络和符号推理的神经符号模型在组合学习中的应用,如使用自然语言解释生成形式规范的方法。
    6. 大型语言模型(LLMs)的评估:对大型语言模型在组合学习任务上的表现进行了评估,包括对模型在算法任务、PCFG任务和自然语言外推等任务上的能力进行了测试。
    7. 理论限制研究:对Transformers和其他神经网络模型的理论限制进行了研究,以了解它们在处理无限输入长度和复杂组合任务时的局限性。
    8. 新兴能力的研究:探讨了大型语言模型中所谓的”新兴能力”(emerging abilities),并对其是否真的存在进行了评估。

    这些实验和分析旨在深入理解人工智能模型在组合学习方面的能力,并识别当前模型的局限性和未来的改进方向。论文通过这些实验和分析,为组合学习领域的研究提供了理论和实践的见解。

    Q: 有什么可以进一步探索的点?

    A: 论文在讨论和未来方向部分提出了一些可以进一步探索的关键点,包括:

    1. 合成和不切实际的评估:当前许多评估组合性的测试是合成的,可能无法完全反映现实世界的应用。未来的研究可以探索更接近现实世界数据和任务的评估方法。
    2. 大型语言模型(LLM)的评估挑战:由于数据污染和评估指标的复杂性,对LLMs的组合泛化能力进行评估存在困难。需要更可靠的方法来准确评估这些模型在未观察到的情况下的泛化能力。
    3. 不一致的理论方法:目前缺乏一个统一和实用的理论框架来研究LLMs的局限性和能力。需要更多的理论研究来深入理解模型的泛化能力。
    4. 认知动机:现代AI模型与人类智能之间存在显着差异。未来的研究应该超越当前的技术趋势,构建能够支持知识和理解的因果模型,这些模型应该具有组合性和学习如何学习的能力。
    5. 复杂任务的评估:研究者可以设计更复杂的任务来评估模型的组合学习能力,例如多跳问题回答和组合数学推理。
    6. 数据集和基准的改进:开发新的数据集和基准测试,以更好地测试模型在不同方面的组合学习能力。
    7. 模型架构的创新:探索新的神经网络架构,这些架构可能更适合处理组合任务,例如通过引入递归状态跟踪机制来改进Transformer。
    8. 神经符号模型的进一步研究:深入研究神经符号模型,以利用它们在组合泛化方面的优势,并探索如何将这些方法应用于更广泛的任务。
    9. 人类学习过程的模拟:研究如何更好地模拟人类的学习过程,特别是在组合学习方面,以提高AI模型的泛化能力。
    10. 跨学科研究:鼓励跨学科的研究,结合认知科学、心理学、语言学和计算机科学等领域的知识,以更全面地理解和改进组合学习。

    这些探索点为未来的研究提供了方向,旨在推动人工智能领域在组合学习方面取得新的进展。

    Q: 总结一下论文的主要内容

    A: 这篇论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》提供了对人工智能模型组合学习能力的全面综述。以下是论文的主要内容总结:

    1. 引言:介绍了组合学习的重要性,它在人类认知中的作用,尤其是在语言理解和视觉感知方面。
    2. 组合学习概念:探讨了组合学习的理论基础,包括系统性、生成性、替代性、局部性和过度泛化等概念。
    3. 抽象任务和数据集:分析了评估模型组合学习能力的不同任务和数据集,如CREPE、SCAN、gSCAN、PCFG SET、CFQ和COGS等。
    4. 组合学习模型:概述了不同类型的计算模型,包括基本神经网络模型、基于Transformer的架构和神经符号架构。
    5. 理论发现:提供了对经典神经网络、Transformers和大型语言模型的组合泛化能力的理论研究结果。
    6. 实验方法:讨论了评估模型组合学习能力的实验方法,包括对模型在不同组合性方面的表现进行测试。
    7. 讨论和未来方向:指出了当前研究中的挑战,如合成和不切实际的评估、LLM的评估挑战、不一致的理论方法和认知动机的缺乏,并提出了未来研究的方向。
    8. 结论:总结了论文的主要发现,并强调了进一步研究的必要性,以提高人工智能模型在组合学习方面的能力。

    论文通过综述现有的研究、分析不同的模型和评估方法,并讨论未来的研究方向,为理解和改进人工智能模型的组合学习能力提供了宝贵的见解。

  • 赋予对话系统“大脑”:从神经科学到虚拟接待员

    随着聊天机器人、语言模型和语音技术的快速发展,人们越来越渴望创造能够通过自然语言或直接语音与人类无缝交互的系统。本文将探讨如何将对话系统研究置于具身智能的更广阔背景下,借鉴神经生物学和神经心理学中的概念,定义一种能够融合手工设计和人工神经网络的行为架构,为未来模仿学习或指令学习等新学习方法打开大门。

    传统对话系统的局限性

    传统的语音助手通常采用一种简单的线性信息流架构,从语音识别到自然语言理解,再到对话管理和自然语言生成,最终输出文本或语音。这种架构虽然在处理简单任务方面表现出色,但面临着一些挑战:

    • 数据依赖性强: 机器学习方法需要大量对话数据进行训练,这在一些领域难以获得。
    • 奖励函数定义困难: 强化学习方法需要定义合适的奖励函数,这在复杂对话场景中非常困难。
    • 可控性/可解释性有限: 基于统计的深度神经网络方法的可控性和可解释性较差。

    另一方面,手工设计的对话系统虽然易于开发,可控性高,但扩展性存在局限,难以应对复杂多变的对话场景。

    借鉴神经科学:Miron系统

    本文提出了一种名为“Miron”的系统,其灵感来源于神经科学中的镜像神经元理论。镜像神经元在动物执行特定动作时以及观察其他个体执行相同动作时都会被激活,这表明动作理解和动作生成可能共享相同的表征。

    Miron系统将这一概念应用于自然语言理解 (NLU) 和自然语言生成 (NLG) 模块,将一个特定的意图 (intent) 与一组用于识别和生成该意图的模板句子联系起来。每个Miron还包含一个可选的数据结构,用于描述模板句子中使用的命名实体 (named entities),例如日期、地点、人物等。

    Miron系统的优势:

    • 统一识别和生成: Miron系统使用相同的模板句子进行识别和生成,简化了设计过程。
    • 可扩展性: Miron模板可以生成大量句子,为统计 NLU 模型提供训练数据。
    • 模仿学习的潜力: Miron系统为通过观察和模仿学习对话行为提供了可能性。

    具身智能和多模态交互

    除了文本对话,具身智能系统还可以通过虚拟化身或物理机器人与人类进行多模态交互,例如眼神、表情、手势等。Miron系统可以通过文本形式表示多模态信息,实现多模态交互。

    对话/行为引擎:基于递归神经网络的架构

    为了处理异步感知事件 (例如语音、传感器信号) 并生成相应的反应,本文提出了一种基于递归神经网络 (RNN) 的对话/行为引擎。该引擎将状态定义为规则,每个规则对应一个状态,当其条件满足时,就会执行一组关联的动作。

    行为引擎的架构:

    • 条件层: 包含识别到的 Miron 意图、动作完成反馈事件、命名实体状态和工作记忆状态。
    • AND 层: 通过权重矩阵和当前激活的规则,确定哪些规则可以被激活。
    • 预选层: 在多个规则可以被激活的情况下,随机选择一个规则。
    • OR 层: 考虑所有激活的规则,最终确定下一个激活的规则。
    • 动作层: 生成相应的动作,包括内部 Miron 意图、内部动作、工作记忆状态变化等。

    内部语言:模拟人类的思考过程

    人类可以通过“内部语言”进行思考,例如回忆记忆或想象场景。本文借鉴这一概念,允许对话系统通过内部 Miron 意图触发行为,就像外部用户发出指令一样。

    模型驱动开发:图形化 DSL

    为了简化对话/行为的设计过程,本文提出了一种图形化领域特定语言 (DSL),允许开发者通过图形化方式创建对话/行为模型。DSL 包含 Miron 元素和规则元素,分别用于定义语言相关方面 (例如意图、命名实体、模板) 和行为逻辑 (例如条件、动作)。

    对话设计:模块化和参数化

    对话可以看作是机器和用户之间一系列言语行为的交替。为了简化对话设计,本文提出了一种基于回合制 (turn-taking) 的架构,将对话流程分解成多个模块,例如用户模型、响应模型、错误模型、情景分析模块、行为参数化模块和参数化行为模块。

    虚拟接待员:应用案例

    本文使用上述方法开发了一个虚拟接待员系统,该系统运行在一个展台上,由一个虚拟化身代表,用于迎接访客、收集信息、验证访客预约信息并联系相关人员迎接访客。

    系统架构:

    • 化身框架: 提供了用于创建虚拟化身的工具和接口。
    • 语音技术: 集成了文本转语音 (TTS) 和语音识别 (ASR) 模块。
    • 电话/邮件通信: 支持电话和邮件通信功能。
    • 人脸识别和距离检测: 支持人脸识别和距离检测功能。

    对话设计:

    • 模块化: 将对话流程分解成多个模块,例如访客模型、情景分析模块、信息参数化模块和错误处理模块。
    • 冗余设计: 通过提供多种信息和处理错误的方式,提高对话的可靠性。
    • 非语言行为: 使用表情、动作等非语言行为,增强用户体验。

    用户研究:

    用户研究表明,虚拟接待员系统获得了较高的用户满意度,用户认为该系统易用、吸引人且能有效地完成任务。

    总结和未来展望

    本文展示了如何将神经科学中的概念应用于手工设计的对话管理系统,并提出了一种基于模型驱动开发和图形化 DSL 的设计方法。未来,学习方法将是实现可扩展对话系统的关键,而模仿学习、指令学习和课程学习将发挥重要作用。

    参考文献:

    • Alderson-Day, B., & Fernyhough, C. (2015). Inner Speech: Development, Cognitive Functions,
      Phenomenology, and Neurobiology. Psychol Bull., 141(5), 931-965.
    • Bohus, D., & Horvitz, E. (2009). Dialog in the open world: platform and applications. In Proceedings of the 2009 international conference on Multimodal interfaces (pp. 31-38).
    • Rizzolatti, G., & Craighero, L. (2004), The Mirror-Neuron System, Annu. Rev. Neurosci., 27, 169–92.
    • Weinschenk, S. (2011). 100 things every designer needs to know about people. Pearson Education.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文探讨了如何将类似于大脑的概念引入到具身对话管理系统中,以提高与人类通过自然语言或直接语音进行无缝交互的系统的能力。具体来说,论文试图解决的问题包括:

    对话管理的挑战:在聊天室、数字助手和自然语言用户界面系统中处理对话管理的问题,这通常涉及如何设计和实现有效的对话系统。

    传统方法的局限性:传统的对话管理方法,包括手工设计模型、基于机器学习的解决方案和混合系统,都有各自的局限性,如数据需求量大、奖励函数定义困难、控制性和可解释性有限。

    提高控制性和可解释性:尽管机器学习方法在模拟人类对话自然性方面具有吸引力,但它们在控制性和可解释性方面存在不足。论文提出通过引入神经生物学和神经心理学的概念,可以设计出既具有高控制性又能够适应未来新学习方法(如模仿学习或指令学习)的对话系统。

    扩展到多模态交互:论文还探讨了如何将对话系统扩展到具身智能领域,包括虚拟助手和物理机器人,以及如何通过定义抽象层来统一处理多模态输入和输出。

    简化对话系统设计:论文提出了一种基于神经行为引擎的方法,允许使用图形化语言创建混合主动对话和动作生成,这有助于简化对话系统的设计并提高其可扩展性。

    降低计算资源需求:论文还关注于如何在计算资源有限的情况下构建对话系统,这对于工业应用来说是一个重要的考虑因素。

    总的来说,这篇论文的目标是展示如何通过结合神经生物学的灵感和模型驱动开发(MDD)的方法,创建出既简单又具有高度控制性和可扩展性的对话系统。

    Q: 有哪些相关研究?

    A: 论文中提到了多个与对话系统、自然语言处理、神经生物学和人工智能相关的研究。以下是一些关键的参考文献和相关研究领域:

    Mirror Neurons: Rizzolatti & Craighero (2004, 2007) 提供了关于镜像神经元的原始发现和理论,这些神经元在动作执行和观察时都会被激活。

    Natural Language Understanding (NLU): 论文中提到了一些用于自然语言理解的简单方法,如 Canonico & De Russis (2018) 和 Abdellatif (2020) 的工作。

    Dialog Management (DM) Systems: Masche & Le (2018), Burgan (2017), 和 Lee et al. (2010) 提供了关于对话管理系统的综述。

    Natural Language Generation (NLG): Santhanam & Shaikh (2019) 和 Gatt & Krahmer (2018) 对NLG模块的不同实现进行了综述。

    Embodied Intelligence: Pezzulo et al. (2011) 讨论了具身智能的重要性以及它如何影响社交机器人的设计。

    Model-Driven Development (MDD): Rodrigues da Silva (2015) 提供了关于MDD的综述,这是一种用于设计复杂系统的方法。

    Neural Networks and State Machines: Das (1994), Gile et al. (1995) 探讨了使用递归神经网络来表示有限状态机的方法。

    Inner Speech: Vygotsky (1986) 和 Morin (2013) 讨论了内部语言的概念,以及它如何影响自我调节行为。

    Evolution of Speech: Rizzolatti & Craighero (2007) 提出了关于人类语言发展的假设。

    Social Bots and Chatbots: 论文提到了商业产品如 Apple Siri®, Amazon Alexa®, 和 Google Home®,以及它们在不同行业中的广泛应用。

    Multimodal Interactions: 论文中提到了如何将对话系统扩展到多模态交互,包括虚拟助手和物理机器人。

    Statistical Language Models: Theune (2003) 提供了关于使用统计语言模型的NLG方法的综述。

    Reinforcement Learning: 在讨论机器学习方法时,论文提到了强化学习解决方案可能面临的挑战。

    Neurobiology and Neuroscience: 论文中引用了多个神经生物学的研究,以展示如何从神经科学中获得灵感来设计对话系统。

    这些参考文献和研究领域为论文提出的对话系统设计方法提供了理论基础和实践指导。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个关键方法来解决对话管理系统的挑战:

    引入神经生物学概念:论文借鉴了神经生物学中的镜像神经元概念,提出了“Mirons”系统,以模拟语言理解(NLU)和语言生成(NLG)的相互关联。

    混合主动对话和动作生成:通过一个基于图形语言的神经行为引擎,实现了混合主动对话和动作生成,允许系统根据手工设计的模型进行响应。

    图形化对话模型:通过图形化对话模型,展示了如何使用受大脑启发的架构来提高对话系统的可用性。

    模型驱动开发(MDD):利用MDD方法和专门的图形领域特定语言(DSL),简化了对话系统行为的定义过程。

    状态机和行为引擎:论文详细描述了一个基于递归神经网络(RNN)的行为引擎,该引擎允许并行状态和非确定性决策,以处理异步感知事件。

    内部语言和反馈循环:通过内部语言和反馈循环的概念,模拟了人类的内部对话过程,允许系统在没有外部输入的情况下触发程序性反应。

    多模态交互:论文讨论了将Mirons概念扩展到其他模态,如视觉和声音,以支持具身智能体的多模态交互。

    虚拟接待员应用案例:通过一个虚拟接待员的实际应用案例,展示了所提出方法的应用,并进行了用户研究来评估用户体验。

    用户研究和评估:通过使用系统可用性量表(SUS)、AttrakDiff量表和特定量表进行用户研究,评估了虚拟接待员应用的用户接受度和对话质量。

    设计原则和方法:论文强调了设计原则和方法的重要性,以减少对话系统的自然复杂性,并通过模块化、参数化和规划来简化对话管理架构。

    这些方法的结合,旨在创建一个既能够控制和解释,又能够适应未来学习技术如模仿学习或指令学习的对话系统。

    Q: 论文做了哪些实验?

    A: 论文中进行了一项用户研究来评估虚拟接待员应用的用户接受度和对话质量。以下是实验的详细步骤和结果:

    参与者:

    由于COVID-19大流行,参与者是从公司内部招募的20名志愿者,他们扮演访客的角色。

    参与者包括40%的女性和60%的男性,平均年龄为34.5岁。

    大多数参与者是德国人,还有来自法国、意大利、俄罗斯和中国的参与者,他们都精通英语。

    测试任务场景:

    参与者随机选择两个预定义的访客档案,包括访客姓名、公司名称和联系人。

    他们需要尝试使用选定的档案与系统注册两次。

    成功注册后,虚拟接待员会调用访客的联系人。

    测试环境:

    虚拟接待员的展位位于大楼入口大厅,靠近人类接待员的桌子。

    测试环境没有控制背景噪音,可能存在侧边对话、自动门开关声、手推车滚动声等。

    评估量表:

    使用了系统可用性量表(SUS)、AttrakDiff量表和特定量表来评估用户体验。

    SUS量表用于评估系统的整体可接受性。

    AttrakDiff量表用于评估产品的实用性和吸引力。

    特定量表包括30个问题,涵盖了用户界面设计的多个心理学方面。

    测试结果:

    所有参与者都成功注册。

    SUS量表得分为90.3,表明系统处于可接受性量表的最高范围。

    AttrakDiff量表显示系统在实用性方面的得分较高,但在“技术/人类”和“不要求/具有挑战性”的感知方面存在不确定性,这对于一个技术系统来说是积极的。

    特定量表的结果与SUS和AttrakDiff的积极结果一致,特别是关于语音识别、语音合成以及对话理解和支持的问题。

    结论:

    用户研究的结果表明,虚拟接待员应用被用户高度接受,并且在对话质量方面表现良好。
    这项用户研究提供了对虚拟接待员应用实际效用的实证评估,并帮助研究者了解其在实际环境中的表现。

    Q: 有什么可以进一步探索的点?

    A: 论文在最后一部分提出了一些未来可能的研究方向和进一步探索的点,主要包括:

    学习方法的改进:尽管当前的学习方法通过大量训练数据来提高性能,但论文认为需要更多地从婴儿发展研究中汲取灵感,探索模仿学习、指令学习或课程学习等方法。

    对话的自然性和可扩展性:论文指出,尽管手工设计的对话管理系统可以从生物学中获益,但未来的可扩展解决方案需要依赖于学习方法。

    多模态交互的深入研究:论文提到了将对话系统扩展到多模态交互的重要性,这包括进一步探索如何结合语言、视觉和其他感官输入。

    模型驱动开发(MDD)的进一步应用:论文提出MDD和图形化DSL可以帮助简化对话系统的设计,但需要进一步研究如何更有效地结合这些工具和方法。

    内部语言和反馈循环的模拟:论文中提到的内部语言和反馈循环的概念可以进一步探索,以更好地理解和模拟人类的内部对话过程。

    用户研究的扩展:论文中的用户研究为评估虚拟接待员应用提供了基础,但可以扩展到更多用户群体和不同环境,以获得更全面的反馈。

    系统架构的优化:论文提出的虚拟接待员系统架构可以进一步优化,以提高性能、可靠性和用户体验。

    隐私和数据保护:鉴于系统使用生物识别数据,如何确保用户数据的安全和隐私是未来研究的一个重要方向。

    跨领域应用:论文中的方法和框架是否可以应用于其他领域,例如医疗、教育或客户服务,也是一个值得探索的问题。

    技术集成:如何将最新的人工智能技术,如强化学习、深度学习和自然语言处理,更有效地集成到对话管理系统中。

    这些探索点为未来的研究提供了方向,旨在提高对话系统的智能性、适应性和用户友好性。

    Q: 总结一下论文的主要内容

    A: 这篇论文主要探讨了如何将类似于大脑的概念引入到对话管理系统中,以提高与人类通过自然语言或直接语音进行无缝交互的能力。以下是对论文主要内容的总结:

    背景介绍:随着聊天机器人、语言模型和语音技术的发展,人们对创建能够通过自然语言或语音与人类无缝交互的系统越来越感兴趣。

    对话管理的挑战:讨论了对话管理在聊天室、数字助手和自然语言用户界面系统中的问题,以及现有的解决方案,包括手工设计模型、基于机器学习的解决方案和混合系统。

    神经生物学启发:论文提出将神经生物学和神经心理学的概念引入对话系统设计中,以实现手工设计和人工神经网络的融合,并为未来的学习方式如模仿学习或指令学习铺平道路。

    神经行为引擎:介绍了一个神经行为引擎,它允许基于手工设计模型使用图形语言创建混合主动对话和动作生成。

    Mirons系统:提出了一个名为“Mirons”的数据结构,用于定义特定意图并将其与用于对话系统中感知和生成意图的模板句子列表相关联。

    具身智能和多模态交互:强调了具身智能在社交机器人设计中的重要性,并提出了一个抽象层来统一处理多模态输入和输出。

    行为/对话引擎:详细描述了一个基于递归神经网络的行为引擎,该引擎允许处理异步感知事件并产生适当的反应。

    内部语言:引入了“内部语言”的概念,模拟人类的内部对话过程,允许系统在没有外部输入的情况下触发程序性反应。

    模型驱动开发(MDD):讨论了使用MDD方法和图形化DSL来简化对话系统行为的定义过程。

    对话设计:提供了设计对话的指导原则和方法,包括模块化、参数化和规划。

    虚拟接待员应用案例:通过一个虚拟接待员的实际应用案例,展示了所提出方法的应用,并进行了用户研究来评估用户体验。

    用户研究:进行了一项用户研究,使用SUS、AttrakDiff和特定量表来评估虚拟接待员应用的用户接受度和对话质量。

    结论和未来工作:论文总结了研究成果,并提出了未来可能的研究方向,包括改进学习方法、多模态交互和隐私保护等。

    论文的内核贡献在于提出了一种结合神经生物学概念和模型驱动开发的对话系统设计方法,并通过实际应用案例和用户研究展示了其有效性。

  • 化繁为简:垂直LoRA,让Transformer模型更轻盈

    近年来,Transformer模型在自然语言处理领域掀起了一场革命,其强大的能力让世人惊叹。但随着模型规模不断扩大,训练和部署这些庞然大物也变得越来越困难,尤其对于个人用户和小型机构来说。

    为了解决这一难题,研究者们提出了各种解决方案,其中低秩分解成为了一个重要的方向。LoRA[7] 就是一个典型的例子,它通过在预训练模型的每一层学习一个低秩增量来实现高效的微调。

    本文则更进一步,提出了一个全新的模型设计范式——垂直LoRA (VLoRA)[7]。它基于一个全新的视角:将Transformer模型看作是密集型期望最大化(EM)算法[7]。

    Transformer:隐藏的EM算法

    在监督学习中,Transformer模型的目标是最大化后验概率 $P(y|x;\theta)$,其中 $x$ 是输入,$y$ 是标签,$\theta$ 是模型参数。本文指出,Transformer模型的每一层实际上都是EM算法的一次迭代,前向传播对应于E步,而下一层与当前层权重差异则对应于M步。

    这个发现揭示了Transformer模型中一个重要的规律:每一层都是基于前一层学习一个增量。而正是基于这一规律,VLoRA应运而生。

    VLoRA:垂直分解,层层递进

    VLoRA 首先定义一个全秩基层,然后每一层都基于上一层学习一个低秩增量,并使用LoRA分解来逼近这个增量。这种垂直分解的方式,使得模型参数数量大幅减少,同时保留了原始模型的性能。

    与传统的水平LoRA相比,VLoRA 更加高效,因为它减少了模型的总体参数,而不是仅仅针对微调阶段。

    实验验证:性能提升,更少参数

    本文在图像分类任务上进行了实验,使用 CIFAR-10 数据集[31] 对 12 层的 Vision Transformer[32] 进行了训练,并比较了其 VLoRA 版本的性能。

    实验结果表明:

    • VLoRA 版本的训练损失和准确率虽然略低于原始模型,但在评估阶段却展现出更强的泛化能力,不容易过拟合。
    • VLoRA 版本的最佳评估指标与原始模型几乎相同,但参数数量却大幅减少。
    • 即使使用较小的低秩(例如 r=2),VLoRA 依然能有效地对每一层的权重增量进行建模。

    未来展望:更轻盈,更强大

    VLoRA 的出现,为构建更轻盈、更强大的 Transformer 模型提供了新的思路。它不仅可以用于降低模型的训练和部署成本,还可以提升模型的泛化能力,使其在更多场景下发挥作用。

    参考文献

    [1] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

    [2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.

    [3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

    [4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

    [5] Anthropic. The claude 3 model family: Opus, sonnet, haiku, 2024.

    [6] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, 36, 2024.

    [7] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

    [8] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International conference on machine learning, pages 2790–2799. PMLR, 2019.

    [9] Jonas Pfeiffer, Aishwarya Kamath, Andreas Rückl, Kyunghyun Cho, and Iryna Gurevych. Adapterfusion: Non-destructive task composition for transfer learning. arXiv preprint arXiv:2005.00247, 2020.

    [10] Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. Adaptive budget allocation for parameter-efficient fine-tuning. In The Eleventh International Conference on Learning Representations, 2023.

    [11] Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. arXiv preprint arXiv:2006.04768, 2020.

    [12] Xiang Lisa Li and Percy Liang. Prefix-tuning: Optimizing continuous prompts for generation. arXiv preprint arXiv:2101.00190, 2021.

    [13] Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, and Jie Tang. P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv preprint arXiv:2110.07602, 2021.

    [14] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

    [15] Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451, 2020.

    [16] Jialin Li, Qiang Nie, Weifu Fu, Yuhuan Lin, Guangpin Tao, Yong Liu, and Chengjie Wang. Lors: Low-rank residual structure for parameter-efficient network stacking. arXiv preprint arXiv:2403.04303, 2024.

    [17] Misha Denil, Babak Shakibi, Laurent Dinh, Marc Aurelio Ranzato, and Nando De Freitas. Predicting parameters in deep learning. Advances in neural information processing systems, 26, 2013.

    [18] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. arXiv preprint arXiv:2012.13255, 2020.

    [19] Chunyuan Li, Heerad Farkhoor, Rosanne Liu, and Jason Yosinski. Measuring the intrinsic dimension of objective landscapes. arXiv preprint arXiv:1804.08838, 2018.

    [20] Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866, 2014.

    [21] Tara N Sainath, Brian Kingsbury, Vikas Sindhwani, Ebru Arisoy, and Bhuvana Ramabhadran. Low-rank matrix factorization for deep neural network training with high-dimensional output targets. In 2013 IEEE international conference on acoustics, speech and signal processing, pages 6655–6659. IEEE, 2013.

    [22] Xiangyu Zhang, Jianhua Zou, Kaiming He, and Jian Sun. Accelerating very deep convolutional networks for classification and detection. IEEE transactions on pattern analysis and machine intelligence, 38(10):1943–1955, 2015.

    [23] Jian Xue, Jinyu Li, and Yifan Gong. Restructuring of deep neural network acoustic models with singular value decomposition. In Interspeech, pages 2365–2369, 2013.

    [24] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. Advances in neural information processing systems, 27, 2014.

    [25] Vadim Lebedev, Yaroslav Ganin, Maksim Rakhuba, Ivan Oseledets, and Victor Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553, 2014.

    [26] Yong-Deok Kim, Eunhyeok Park, Sungjoo Yoo, Taelim Choi, Lu Yang, and Dongjun Shin. Compression of deep convolutional neural networks for fast and low power mobile applications. arXiv preprint arXiv:1511.06530, 2015.

    [27] Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, and Zhifang Sui. Periodiclora: Breaking the low-rank bottleneck in lora optimization. arXiv preprint arXiv:2402.16141, 2024.

    [28] Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, and Hong Mei. Lora dropout as a sparsity regularizer for overfitting control. arXiv preprint arXiv:2404.09610, 2024.

    [29] Soufiane Hayou, Nikhil Ghosh, and Bin Yu. Lora+: Efficient low rank adaptation of large models. arXiv preprint arXiv:2402.12354, 2024.

    [30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

    [31] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.

    [32] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.

  • KAN网络:深度学习的新希望

    近年来,深度学习技术取得了长足的进步,多层感知机(MLP)作为其基础模型,在图像识别、自然语言处理等领域发挥着重要作用。然而,MLP也存在着一些局限性,例如可解释性差、容易受到维度灾难的影响等。

    为了克服这些问题,麻省理工学院等机构的研究人员提出了一种全新的神经网络模型——KAN网络,即Kolmogorov-Arnold Networks(科尔莫戈洛夫-阿诺德网络)。KAN网络的设计灵感源于著名的科尔莫戈洛夫-阿诺德表示定理,该定理表明任何多元连续函数都可以表示为单变量函数的有限组合和加法运算。

    KAN网络的独特之处

    与MLP不同,KAN网络将可学习的激活函数放置在连接节点的边上,而不是节点本身。这意味着KAN网络没有线性权重矩阵,而是使用可学习的样条函数来代替每个权重参数。这种看似简单的改变,却赋予了KAN网络强大的能力。

    1. 准确性: KAN网络可以用更小的模型达到与更大的MLP相当甚至更好的准确性。这得益于它能够有效地学习组合结构和单变量函数,从而克服了维度灾难的影响。

    2. 可解释性: KAN网络的结构非常直观,可以轻松地可视化,并且可以与人类用户进行交互。这使得科学家能够更好地理解模型的内部机制,并将其用于科学发现。

    数学知识

    为了更好地理解KAN网络的数学基础,以下是一些关键的数学知识:

    科尔莫戈洛夫-阿诺德表示定理

    科尔莫戈洛夫-阿诺德表示定理是KAN网络的理论基础。该定理指出,对于任何连续的多元函数 ( f: \mathbb{R}^n \to \mathbb{R} ),存在 ( 2n+1 ) 个单变量函数 ( \phi_i ) 和 ( \psi ) ,使得:
    [ f(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{2n+1} \psi \left( \sum_{j=1}^n \phi_{ij}(x_j) \right). ]

    这个定理表明,任何多元函数都可以通过有限数量的单变量函数和加法来表示。这为KAN网络提供了理论支持,使得它能够表示复杂的多元函数。

    样条函数

    样条函数是KAN网络中的关键组件。样条函数是一种分段定义的多项式函数,通常用于数据拟合和插值。样条函数的形式为:
    [ S(x) = \sum_{i=0}^{k} a_i B_i(x), ]
    其中 ( B_i(x) ) 是基函数, ( a_i ) 是系数。样条函数的灵活性和连续性使其非常适合用作神经网络中的可学习参数。

    KAN网络的应用

    研究人员在数学和物理学领域进行了大量的实验,证明了KAN网络的巨大潜力。

    1. 数学领域: 在结理论中,KAN网络可以帮助科学家重新发现结不变量的关系,并推导出新的定理。

    2. 物理领域: 在凝聚态物理学中,KAN网络可以帮助科学家提取准周期紧束缚模型的迁移率边缘,并理解安德森局域化现象。

    KAN网络的未来展望

    尽管KAN网络已经展现出巨大的潜力,但它仍然处于发展阶段,未来还有很多值得探索的方向。

    1. 数学基础: 目前对KAN网络的数学理解还很有限,需要进一步研究其数学基础,特别是对于深层KAN网络的数学分析。

    2. 算法优化: KAN网络的训练速度较慢,需要进一步优化算法,提高训练效率。

    3. 应用扩展: KAN网络可以应用于更多领域,例如流体力学、密度泛函理论等,并与现有的深度学习架构(例如Transformer)进行整合。

    总而言之,KAN网络是一种具有巨大潜力的深度学习模型,它结合了样条函数和MLP的优点,在准确性和可解释性方面都表现出色。随着

  • KAN网络:深度学习的新希望

    近年来,深度学习技术取得了长足的进步,多层感知机(MLP)作为其基础模型,在图像识别、自然语言处理等领域发挥着重要作用。然而,MLP也存在着一些局限性,例如可解释性差、容易受到维度灾难的影响等。

    为了克服这些问题,麻省理工学院等机构的研究人员提出了一种全新的神经网络模型——KAN网络,即Kolmogorov-Arnold Networks(科尔莫戈洛夫-阿诺德网络)。KAN网络的设计灵感源于著名的科尔莫戈洛夫-阿诺德表示定理,该定理表明任何多元连续函数都可以表示为单变量函数的有限组合和加法运算。

    KAN网络的独特之处

    与MLP不同,KAN网络将可学习的激活函数放置在连接节点的边上,而不是节点本身。这意味着KAN网络没有线性权重矩阵,而是使用可学习的样条函数来代替每个权重参数。这种看似简单的改变,却赋予了KAN网络强大的能力。

    1. 准确性: KAN网络可以用更小的模型达到与更大的MLP相当甚至更好的准确性。这得益于它能够有效地学习组合结构和单变量函数,从而克服了维度灾难的影响。

    2. 可解释性: KAN网络的结构非常直观,可以轻松地可视化,并且可以与人类用户进行交互。这使得科学家能够更好地理解模型的内部机制,并将其用于科学发现。

    KAN网络的应用

    研究人员在数学和物理学领域进行了大量的实验,证明了KAN网络的巨大潜力。

    1. 数学领域: 在结理论中,KAN网络可以帮助科学家重新发现结不变量的关系,并推导出新的定理。

    2. 物理领域: 在凝聚态物理学中,KAN网络可以帮助科学家提取准周期紧束缚模型的迁移率边缘,并理解安德森局域化现象。

    KAN网络的未来展望

    尽管KAN网络已经展现出巨大的潜力,但它仍然处于发展阶段,未来还有很多值得探索的方向。

    1. 数学基础: 目前对KAN网络的数学理解还很有限,需要进一步研究其数学基础,特别是对于深层KAN网络的数学分析。

    2. 算法优化: KAN网络的训练速度较慢,需要进一步优化算法,提高训练效率。

    3. 应用扩展: KAN网络可以应用于更多领域,例如流体力学、密度泛函理论等,并与现有的深度学习架构(例如Transformer)进行整合。

    总而言之,KAN网络是一种具有巨大潜力的深度学习模型,它结合了样条函数和MLP的优点,在准确性和可解释性方面都表现出色。随着研究的不断深入,KAN网络有望成为深度学习领域的新希望,助力科学家们进行更深入的科学发现。

  • 赋予视觉语言模型空间推理能力:SpatialVLM

    视觉语言模型(VLM)在近年来取得了显著进展,在图像字幕生成、视觉问答(VQA)、具身规划、动作识别等各种任务中展现出强大的能力。然而,即使是最先进的VLM在空间推理方面仍然存在不足,例如无法识别物体在三维空间中的位置关系,或无法理解物体之间的距离或大小差异。

    空间推理的缺失:为什么VLM难以理解空间关系?

    我们认为,VLM在空间推理方面能力有限,主要是因为其训练数据中缺乏三维空间知识。大多数VLM都是基于互联网规模的图像-字幕对数据集进行训练,这些数据集包含有限的空间信息。这主要是因为获取包含丰富空间信息的具身数据或高质量的三维空间查询标注存在困难。

    SpatialVLM:让VLM“看懂”空间关系

    为了解决这个问题,我们提出了一个名为SpatialVLM的系统,它可以生成大量包含空间推理信息的VQA数据,并使用这些数据来训练VLM,从而增强其空间推理能力。

    SpatialVLM的核心思想是利用现有的视觉模型来自动生成丰富的三维空间标注。具体而言,通过结合开放词汇检测、度量深度估计、语义分割和以物体为中心的字幕模型,我们可以对真实世界中的数据进行大规模密集标注。SpatialVLM将这些视觉模型生成的标注转换为可用于训练VLM的格式,使其能够学习字幕生成、VQA和空间推理等多种任务。

    SpatialVLM的强大能力:超越传统VLM

    通过实验,我们发现SpatialVLM训练后的VLM具有许多理想的能力:

    • 增强对空间关系的理解: SpatialVLM能够更好地回答关于物体空间关系的定性问题,例如“哪个物体在左边?”或“哪个物体更高?”。
    • 进行定量估计: SpatialVLM能够可靠地进行定量估计,例如“物体A距离物体B有多远?”或“物体A的宽度是多少?”。这种能力不仅赋予了VLM关于物体大小的常识性知识,还可以将其用作重排任务的开放词汇奖励标注器。
    • 解锁新应用: SpatialVLM可以与强大的大型语言模型(LLM)结合,进行空间链式推理,解决需要多步空间推理的复杂问题。

    SpatialVLM的关键技术:

    1. 从2D图像中提取空间信息:

    • 语义过滤: 使用CLIP模型过滤掉不适合生成空间推理VQA数据的图像,例如单一物体图像或没有场景背景的图像。
    • 以物体为中心的上下文提取: 利用现有的视觉模型,例如区域提议、区域字幕和语义分割模型,提取以物体为中心的上下文信息,包括像素簇和开放词汇字幕描述。
    • 将2D上下文提升到3D上下文: 使用深度估计模型将单目2D像素提升到度量尺度的3D点云,并将其转换为大地坐标系。
    • 消除歧义: 使用细粒度的物体字幕和语义导向的后处理算法来消除物体字幕的歧义。

    2. 大规模空间推理VQA数据集:

    • 生成定性和定量问题: 设计了38种类型的定性和定量空间推理问题,并使用模板生成大量VQA数据对。
    • 从点云和3D包围盒中提取答案: 使用专门设计的函数从点云和3D包围盒中提取答案,以确保答案的准确性。

    3. 学习空间推理:

    • 直接空间推理: 使用PaLM-E的架构和训练流程,并使用混合数据集进行训练,其中包含5%的空间推理任务。
    • 空间链式推理: 利用LLM作为协调器,将复杂问题分解成简单问题,并使用SpatialVLM进行回答,最终将推理结果整合在一起。

    SpatialVLM的实验结果:

    • SpatialVLM在定性和定量空间VQA任务上都取得了显著的性能提升,超越了包括GPT-4V在内的所有基线模型。
    • SpatialVLM在其他任务上的性能没有下降,甚至在包含空间推理问题的VQA-v2测试集中表现更好。
    • SpatialVLM可以作为机器人任务的奖励标注器,并能够进行空间链式推理,解决需要多步空间推理的复杂问题。

    总结:

    SpatialVLM为VLM注入了空间推理能力,并为其解锁了新的应用领域。它证明了通过生成大量包含空间推理信息的VQA数据,可以有效地增强VLM的空间推理能力。未来,我们可以进一步研究更细致的几何原语,以更好地将空间推理与三维几何联系起来。

    参考文献:

    • [1] Chen, B., Xu, Z., Kirmani, S., Driess, D., Florence, P., Ichter, B., … & Xia, F. (2024). SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities. arXiv preprint arXiv:2401.12168.
  • vAttention: 让 LLM 推理更快速、更便捷

    大型语言模型 (LLM) 正在改变着各个领域,但其高昂的计算资源消耗和内存占用成为了制约其应用的关键瓶颈。为了解决 LLM 推理中的内存问题,vLLM 提出了 PagedAttention,它通过动态分配内存来避免预先分配过多的内存,从而减少内存浪费。然而,PagedAttention 也存在一些缺陷,例如需要修改注意力内核代码,增加了开发难度,并且性能也受到一定影响。

    为了克服 PagedAttention 的局限性,本文介绍了一种全新的内存管理技术——vAttention。vAttention 巧妙地利用了系统本身的虚拟内存机制,将预分配虚拟内存和实际分配物理内存分离,并拓展了分配小内存的 PyTorch 算子,从而实现了更灵活、更高效的内存管理。

    PagedAttention 的局限性

    PagedAttention 通过动态分配内存,将 KV 缓存分割成多个固定大小的块,并在需要时分配内存。然而,这种方法存在以下几个问题:

    • 需要修改注意力内核代码: PagedAttention 导致 KV 缓存存储在非连续的虚拟内存中,需要修改注意力内核代码以支持分页,增加了开发难度。
    • 增加了框架复杂度: PagedAttention 需要在服务框架中实现一个内存管理器,负责分配和释放 KV 缓存,增加了框架的复杂度。
    • 性能下降: PagedAttention 会增加 GPU 和 CPU 的运行时开销,导致性能下降。

    vAttention:突破传统内存管理的限制

    vAttention 则采用了一种更巧妙的方案,它保留了 KV 缓存的虚拟内存连续性,并利用系统本身的虚拟内存机制来实现按需物理内存分配。

    vAttention 的核心思想:

    1. 预留虚拟内存: vAttention 预先分配足够大的虚拟内存空间来存储 KV 缓存,但并不分配物理内存。
    2. 按需物理内存分配: vAttention 仅在需要时才分配物理内存页面,并将这些页面映射到虚拟内存中。
    3. 利用低级 CUDA 支持: vAttention 利用 CUDA 低级 API,可以对虚拟和物理内存进行细粒度控制,实现更灵活的内存管理。
    4. 拓展 PyTorch 接口: vAttention 扩展了 PyTorch 缓存分配器,允许应用程序为张量保留虚拟内存缓冲区,而无需提前提交物理内存。
    5. 请求级 KV-cache 索引: vAttention 使用唯一的标识符来定位每个请求的子张量,并进行相应的内存分配和释放。

    vAttention 的优势:

    • 连续内存: vAttention 保证了 KV 缓存存储在连续的虚拟内存中,避免了内存碎片化问题。
    • 性能提升: vAttention 能够无缝接入 FlashAttention 等高性能注意力计算内核,并通过优化内存管理机制,显著提升了 LLM 的性能。
    • 更易于移植: vAttention 能够直接使用现有的注意力内核,无需修改代码,方便移植到不同的 LLM 模型和框架中。

    性能评估

    实验结果表明,vAttention 在吞吐量和推理时间方面都取得了显著提升,性能比 vLLM 高出 1.97 倍。

    总结

    vAttention 作为 PagedAttention 的升级版本,有效地解决了传统内存管理机制的缺陷,为 LLM 的应用提供了更强大的支持。它不仅提高了 LLM 的性能,也简化了开发流程,为 LLM 的进一步发展提供了新的方向。

    注: 本文内容主要参考了 vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention 的论文,并加入了个人理解和分析。

  • LLM 前沿技术跟踪:PagedAttention 升级版 vAttention

    近年来,大型语言模型(LLM)在各个领域都取得了显著进展,但其高昂的计算资源消耗和内存占用成为了制约其应用的关键瓶颈。PagedAttention 作为一种动态内存分配机制,在一定程度上解决了 LLM 的内存问题,但也存在一些缺陷,例如内存不连续导致的效率低下和开发难度增加。

    本文将介绍一种全新的内存管理技术——vAttention,它可以看作是 PagedAttention 的升级版本,有效地解决了这些问题,并显著提升了 LLM 的性能。

    PagedAttention 的局限性

    PagedAttention 通过动态分配内存来应对 LLM 自回归生成时内存需求不确定的问题。然而,这种方法存在以下几个不足:

    • 内存不连续: PagedAttention 会导致内存分配不连续,需要在框架中引入额外的内存管理代码,增加了开发难度。
    • 注意力计算效率降低: kv cache 在注意力计算中无法连续读取,需要手动修改注意力内核代码进行分段读取,降低了计算效率。
    • 性能劣于 FlashAttention: 在小数据量时,PagedAttention 的速度明显慢于 FlashAttention,可能是由于 cache 命中率高,连续内存读取效率更高导致的。

    vAttention:突破传统内存管理的限制

    vAttention 巧妙地利用了虚拟内存机制,将预分配虚拟内存和实际分配物理内存分离,并拓展了分配小内存的 PyTorch 算子,将内存管理从注意力内核中剥离出来。

    vAttention 的核心思想:

    1. 预留虚拟内存: 创建足够长的虚拟内存,但并不分配物理内存,利用系统本身的虚拟内存管理机制。
    2. 按需物理内存分配: 每次优先分配一个物理内存页面,仅当请求已使用完其先前分配的所有物理内存页面时,再分配新的物理内存,并映射到虚拟内存中。
    3. 利用低级 CUDA 支持: vAttention 利用 CUDA 低级 API,可以对虚拟和物理内存进行细粒度控制,实现更灵活的内存管理。
    4. 拓展 PyTorch 接口: vAttention 扩展了 PyTorch 缓存分配器,允许应用程序为张量保留虚拟内存缓冲区,而无需提前提交物理内存。
    5. 请求级 KV-cache 索引: vAttention 使用唯一的整数标识符来定位请求的子张量,并进行相应的内存分配和释放。

    vAttention 的优势:

    • 连续内存: vAttention 保证了 KV 缓存存储在连续的虚拟内存中,无需提前提交物理内存,避免了内存碎片化问题。
    • 性能提升: vAttention 能够无缝接入 FlashAttention 等高性能注意力计算内核,并通过优化内存管理机制,显著提升了 LLM 的性能。

    性能评估

    实验结果表明,vAttention 在吞吐量和推理时间方面都取得了显著提升,性能比 vLLM 高出 1.97 倍。

    总结

    vAttention 作为 PagedAttention 的升级版本,有效地解决了传统内存管理机制的缺陷,为 LLM 的应用提供了更强大的支持。它不仅提高了 LLM 的性能,也简化了开发流程,为 LLM 的进一步发展提供了新的方向。

    注: 本文内容主要参考了 akaihaoshuai 的知乎文章,并加入了个人理解和分析。

  • 一篇文章看懂Redission原理

    Redission 是一个基于 Redis 的 Java 客户端,它提供了一系列的分布式数据结构和服务,方便开发者在分布式环境下进行数据操作和通信。本文将深入探讨 Redission 的原理,并以可重入锁、锁重试和 WatchDog 机制、MutiLock 原理为例进行详细讲解。

    ☃️可重入锁原理

    Redission 的可重入锁利用 Redis 的 Hash 结构实现,它使用一个大 Key 来表示锁是否存在,并使用多个小 Key 来记录当前持有锁的线程信息。

    加锁逻辑:

    1. 判断锁是否存在: 如果锁不存在,则使用 redis.call('hset', KEYS[1], ARGV[2], 1) 命令将锁信息写入 Redis 的 Hash 结构中,并设置过期时间。
    2. 判断锁是否被当前线程持有: 如果锁存在,则使用 redis.call('hexists', KEYS[1], ARGV[2]) 命令判断当前线程是否持有该锁。如果是,则使用 redis.call('hincrby', KEYS[1], ARGV[2], 1) 命令将锁的 value 值加 1,表示该线程再次获得了锁。
    3. 设置过期时间: 使用 redis.call('pexpire', KEYS[1], ARGV[1]) 命令为锁设置过期时间。

    释放锁逻辑:

    释放锁时,使用 redis.call('hincrby', KEYS[1], ARGV[2], -1) 命令将锁的 value 值减 1。当 value 值减至 0 时,表示该线程不再持有锁,锁被释放。

    可重入机制:

    Redission 的可重入锁通过记录每个线程持有的锁次数来实现可重入机制。当一个线程第一次获得锁时,锁的 value 值为 1。如果该线程再次尝试获得锁,则 value 值会加 1,表示该线程再次获得了锁。只有当 value 值减至 0 时,该线程才真正释放锁。

    ☃️锁重试和WatchDog机制

    Redission 的锁重试机制是指当线程尝试获得锁失败时,会不断重试直到获得锁。WatchDog 机制则是为了防止锁在持有线程意外宕机时无法释放,而引入的一种自动续约机制。

    锁重试:

    Redission 的锁重试机制通过 while(true) 循环实现,每次循环都会尝试获得锁。如果获得锁成功,则退出循环;否则,会根据 waitTimeleaseTime 参数来控制重试频率和重试时间。

    WatchDog 机制:

    WatchDog 机制通过一个定时任务来实现,该定时任务会定期检查锁的剩余时间,并在剩余时间不足时进行续约。WatchDog 机制的核心代码如下:

    ttlRemainingFuture.onComplete((ttlRemaining, e) -> {
        if (e != null) {
            return;
        }
    
        // lock acquired
        if (ttlRemaining == null) {
            scheduleExpirationRenewal(threadId);
        }
    });

    这段代码会在锁获得成功后,启动一个定时任务,该定时任务会根据 internalLockLeaseTime 参数来设置续约时间。当定时任务触发时,会调用 renewExpirationAsync 方法来进行锁续约。

    ☃️MutiLock原理

    为了提高 Redis 的可用性,我们通常会搭建集群或者主从模式。在主从模式下,如果主机在将锁信息同步到从机之前宕机,则新的主机会丢失锁信息,导致锁失效。

    为了解决这个问题,Redission 提出了 MutiLock 锁,它将锁信息写入到所有 Redis 节点中,只有所有节点都写入成功,才算加锁成功。

    MutiLock 加锁原理:

    1. 将多个锁添加到一个集合中: Redission 会将需要加锁的所有锁添加到一个集合中。
    2. 循环尝试获取锁: Redission 会使用 while 循环,不断尝试获取集合中的所有锁。
    3. 设置总加锁时间: Redission 会设置一个总加锁时间,该时间等于需要加锁的个数乘以 1500 毫秒。
    4. 判断加锁是否成功: 如果在总加锁时间内,所有锁都获取成功,则加锁成功;否则,会再次进行重试。

    MutiLock 的优势:

    • 提高锁的可靠性: MutiLock 锁将锁信息写入所有 Redis 节点,即使某个节点宕机,也不会导致锁失效。
    • 提高锁的可用性: MutiLock 锁可以提高锁的可用性,即使某个节点宕机,其他节点仍然可以正常提供服务。

    参考文献

  • 告别“曝光偏差”:用动态预言机提升自回归模型训练

    自回归模型在自然语言处理 (NLP) 中扮演着重要角色,从序列标注到文本生成,它们都展现出强大的能力。然而,传统的训练方法,例如教师强迫和计划采样,却面临着“曝光偏差”和“指标不匹配”的挑战。

    “曝光偏差”指的是模型在训练时依赖于真实序列,但在推理时只能依靠自身预测,导致模型难以纠正预测错误。“指标不匹配”则指训练过程中使用的损失函数与推理阶段采用的评估指标之间存在差异,例如训练时使用交叉熵损失,而推理时则使用 F1 分数、ROUGE 或 BLEU 等非可微指标。

    DAgger 算法为解决这些问题提供了一种解决方案,它通过使用动态预言机来引导模型学习更接近专家策略的行为。然而,DAgger 算法需要针对特定指标设计动态预言机,而对于许多常见指标,例如基于跨度的 F1 分数、ROUGE 和 BLEU,现有的动态预言机算法并不存在。

    本文的主要贡献在于:

    • 提出了一种针对可分解指标(例如基于跨度的 F1 分数)的精确动态预言机算法,并证明了该算法具有无悔保证。
    • 针对不可分解指标(例如 BLEU 和 ROUGE),提出了一种基于近似算法(例如束搜索)的动态预言机算法。
    • 在命名实体识别 (NER)、机器翻译 (MT) 和文本摘要等任务上评估了这些算法,实验结果表明,使用动态预言机的 DAgger 算法在 NER 和文本摘要任务上显著优于传统的训练方法,但在机器翻译任务上表现并不稳定。

    理解动态预言机

    动态预言机是 DAgger 算法的核心,它扮演着“专家”的角色,根据当前模型的预测结果和真实序列,给出最优的后续预测。动态预言机可以分为两类:可分解指标的精确动态预言机不可分解指标的近似动态预言机

    对于可分解指标,例如词错误率 (WER) 和基于跨度的 F1 分数,可以通过分解指标的计算公式,直接计算出最优的后续预测。而对于不可分解指标,例如 BLEU 和 ROUGE,由于其计算公式涉及全局特征,无法直接分解,因此需要使用近似算法,例如束搜索,来找到最优的后续预测。

    针对不同指标的动态预言机设计

    基于跨度的 F1 分数:本文提出了针对部分匹配 F1 分数的动态预言机算法,该算法通过判断当前预测标签和真实标签之间的关系,给出最优的后续预测标签,以最大程度地提高 F1 分数。

    ROUGE 和 BLEU:由于 ROUGE 和 BLEU 属于不可分解指标,本文使用束搜索算法来近似计算动态预言机。该算法通过对一定数量的候选后续预测进行评估,选择得分最高的候选作为动态预言机的输出。

    实验结果

    本文在 NER、MT 和文本摘要等任务上进行了实验,结果表明:

    • NER 任务:使用动态预言机的 DAgger 算法在 CoNLL-2003 和 WNUT-2017 数据集上均取得了显著的性能提升,优于教师强迫和计划采样等传统训练方法。
    • MT 任务:使用动态预言机的 DAgger 算法在 IWSLT’14 Sl-En 数据集上表现并不稳定,可能与该数据集较小,BLEU 指标已经饱和有关。
    • 文本摘要任务:使用动态预言机的 DAgger 算法在 CNN/Daily-Mail 数据集上取得了显著的性能提升,优于教师强迫和计划采样等传统训练方法。

    未来方向

    本文的研究为自回归模型的训练提供了新的思路,但仍存在一些挑战和未来研究方向:

    • 预训练模型:动态预言机在微调预训练模型方面表现出色,但在从头训练模型方面表现不佳。未来可以探索如何更好地利用动态预言机来训练从头训练的模型。
    • 运行时间:动态预言机算法的运行时间可能较长,尤其是对于不可分解指标的近似算法。未来可以探索如何优化算法,降低运行时间。
    • 随机动态预言机:当存在多个得分相同的动态预言机时,可以随机选择其中一个作为后续预测,以增加模型的输出多样性。
    • 其他指标和模型:动态预言机算法可以扩展到其他更复杂的指标,例如基于模型的指标,以及其他类型的模型,例如解码器模型。

    总结

    本文提出了针对自回归模型训练的动态预言机算法,并证明了其在 NER 和文本摘要任务上的有效性。该算法为解决自回归模型训练中的“曝光偏差”和“指标不匹配”问题提供了一种新的解决方案,具有重要的理论意义和实践价值。

    参考文献:

    • Improving Autoregressive Training with Dynamic Oracles (https://arxiv.org/html/2406.09393v1)

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决自然语言处理(NLP)中串行学习任务的自回归训练方法存在的问题,主要包括:

    1. 曝光偏差(Exposure Bias):在推理过程中,模型依赖于自身之前的预测,而不是真实的上下文信息。这导致模型在训练时没有接触到在推理时可能产生的预测错误,从而在实际应用中难以纠正这些错误。
    2. 指标不匹配(Metric Mismatch):训练过程中使用的损失函数(如交叉熵损失)与推理时使用的评估指标(如基于跨度的F1分数、ROUGE、BLEU等)之间存在不匹配,这可能导致模型在训练时优化的目标与实际评估时考虑的指标不一致。

    为了解决这些问题,论文提出了使用DAgger算法结合动态预言者(Dynamic Oracles)的方法。动态预言者根据具体的评估指标定制,以提供最优的监督信号,指导模型在解码过程中对错误进行响应。论文特别针对一些常见的评估指标(如基于跨度的F1分数、ROUGE和BLEU)开发了相应的动态预言者算法,并在命名实体识别(NER)、文本摘要和机器翻译(MT)等任务上验证了算法的性能。

    Q: 有哪些相关研究?

    A: 论文中提到了多项相关研究,主要集中在以下几个方面:

    1. DAgger算法:DAgger(Dataset Aggregation)是一种用于模仿学习的算法,它通过动态预言者(Dynamic Oracle)来引导模型策略更接近专家策略。该算法旨在减少曝光偏差,并提供无遗憾(no-regret)保证。
    2. 自回归训练方法:包括教师强制(Teacher Forcing)、计划抽样(Scheduled Sampling)等,这些方法在串行生成任务中被广泛使用,但存在曝光偏差和指标不匹配的问题。
    3. 动态预言者(Dynamic Oracles):在依赖解析(Dependency Parsing)和自动语音识别(ASR)等领域,动态预言者已经被用来优化特定的评估指标,如标签附着分数(Labeled Attachment Score, LAS)和词错误率(Word Error Rate, WER)。
    4. 评估指标:论文中讨论了可分解(decomposable)和不可分解(non-decomposable)的评估指标。例如,基于跨度的F1分数和ROUGE是可分解的,而BLEU分数是不可分解的。
    5. 特定任务的算法:论文提出了针对特定评估指标的动态预言者算法,例如命名实体识别(NER)的partial-match F1、文本摘要的ROUGE和机器翻译(MT)的BLEU分数。
    6. 其他方法:包括最小风险训练(Minimum Risk Training)、混合交叉熵损失(Mixed Cross-Entropy Loss)等,这些方法旨在解决串行生成中的曝光偏差问题。
    7. 模仿学习:SEARN、LOLS和MIXER等算法通过模仿学习来改进模型性能。
    8. 全局感知训练:如全局感知束搜索(Global-Aware Beam Search)和预言者强制(Seer-Forcing)算法,这些方法利用目标侧的未来信息来改进串行生成。
    9. 替代损失目标:除了最大似然估计(MLE)之外,还有研究提出了其他损失函数来解决曝光偏差问题。

    这些研究为论文提出的改进自回归训练方法提供了理论基础和技术支持。论文通过结合这些相关研究,开发了新的动态预言者算法,并在多个NLP任务上验证了其有效性。

    Q: 论文如何解决这个问题?

    A: 论文通过以下方法解决自回归训练中的问题:

    1. DAgger算法:采用DAgger算法来减少曝光偏差,并提供无遗憾保证。DAgger通过在训练过程中使用动态预言者(Dynamic Oracle)来指导模型,使其在解码过程中能够更好地响应预测错误。
    2. 动态预言者(Dynamic Oracles):为特定的评估指标设计动态预言者,这些预言者能够根据模型的部分输出串行,提供最优的完成方式以最小化与真实输出的损失。动态预言者分为两类:
      • 可分解指标的精确动态预言者:对于如基于跨度的F1分数这样的可分解指标,设计了能够精确计算最优完成的算法。
      • 不可分解指标的近似动态预言者:对于如BLEU或ROUGE这样的不可分解指标,由于精确计算最优完成在计算上不可行,因此提出了基于束搜索(Beam Search)的近似算法。
    3. 算法实现
      • 对于部分匹配F1分数(Partial Match F1),论文提出了一个精确的动态预言者算法(见算法1),用于命名实体识别(NER)任务。
      • 对于ROUGE分数,论文提出了一个基于束搜索的近似动态预言者算法(见算法2),用于文本摘要任务。
      • 对于BLEU分数,论文同样采用了基于束搜索的近似动态预言者算法,用于机器翻译(MT)任务。
    4. 实验验证:论文在命名实体识别(NER)、文本摘要和机器翻译(MT)三个不同的任务上进行了实验,验证了所提出的算法的有效性。实验结果表明,在NER和文本摘要任务中,使用DAgger结合动态预言者的训练方法优于传统的教师强制和计划抽样方法。然而,在机器翻译任务中,DAgger的表现并不总是优于其他基线方法。
    5. 进一步分析:论文还对机器翻译任务中DAgger表现不佳的现象进行了分析,探讨了可能的原因,并提出了改进方向,例如使用更大的束宽度(beam size)和在训练早期阶段开始使用DAgger。

    通过这些方法,论文成功地解决了自回归训练中的一些问题,并在多个任务上展示了所提出方法的有效性。

    Q: 论文做了哪些实验?

    A: 论文进行了以下实验来验证所提出方法的有效性:

    1. 命名实体识别 (NER):
      • 数据集: 使用了CoNLL-2003 Shared Task的英语和德语数据集,以及WNUT 2017 Shared Task的数据集。
      • 模型: 使用了BERT和FLAIR作为基线的串行到串行(seq2seq)模型,后接RNN-LM解码器。
      • 训练方法: 对比了教师强制(Teacher Forcing)、计划抽样(Scheduled Sampling)和DAgger结合精确动态预言者(Exact Dynamic Oracle)的训练方法。
      • 评估指标: 使用部分匹配F1分数(Partial Match F1)作为评估指标。
    2. 机器翻译 (MT):
      • 数据集: 使用了IWSLT’14 Sl-En数据集,包含斯洛文尼亚语-英语的并行句子。
      • 模型: 使用标准的编码器-解码器Transformer模型。
      • 训练方法: 除了教师强制和计划抽样,还考虑了最小风险训练、词级预言者和MIXER等基线方法,并与DAgger结合近似动态预言者进行比较。
      • 评估指标: 使用BLEU分数作为评估指标。
    3. 文本摘要:
      • 数据集: 使用了CNN/Daily-Mail(CNNDM)基准数据集,包含新闻文章及其摘要。
      • 模型: 使用了BART模型,这是一个包含BERT风格编码器和预训练解码器(GPT-2)的编码器-解码器模型。
      • 训练方法: 对比了教师强制、计划抽样和DAgger结合近似动态预言者的训练方法,其中动态预言者使用了不同大小的束搜索(Beam Search)。
      • 评估指标: 使用ROUGE分数作为评估指标。

    实验结果显示,在NER和文本摘要任务中,使用DAgger结合动态预言者的训练方法在性能上超过了传统的教师强制和计划抽样方法。然而,在机器翻译任务中,DAgger的表现并不总是优于其他基线方法。论文还对机器翻译任务中DAgger表现不佳的现象进行了进一步的分析,探讨了可能的原因,并提出了改进方向。

    Q: 有什么可以进一步探索的点?

    A: 论文在讨论和未来工作部分提出了一些可以进一步探索的点,包括:

    1. 预训练模型的有效性:论文发现DAgger在微调预训练模型(如BERT、FLAIR和BART)时非常有效,但在从头开始训练Transformer模型时失败了。未来的工作可以探索如何提高DAgger在从头开始训练模型时的有效性。
    2. 运行时优化:动态预言者的运行时间可能比教师强制训练长,特别是对于BLEU分数的计算。未来的工作可以探索如何进一步优化束搜索过程,减少计算时间。
    3. 随机动态预言者:在存在多个具有相同分数的动态预言者时,可以采用随机选择的方法来进行数据增强,以促进模型产生更多样化的输出并提高泛化能力。
    4. 其他评估指标和模型:论文主要关注传统的评估指标,未来的工作可以扩展到更复杂的指标,如基于模型的指标(例如BERTScore)。此外,虽然论文主要使用编码器-解码器模型,但所提出的算法也可以应用于无需编码器的解码器模型。
    5. 近似动态预言者的算法:对于不可分解的指标,论文使用了近似动态预言者。未来的工作可以探索如何改进这些算法,使其更接近最优解。
    6. 大规模实验:论文在相对较小的数据集上进行了实验,未来的工作可以在更大规模的数据集上验证所提出方法的可扩展性和鲁棒性。
    7. 不同任务的适应性:研究DAgger和动态预言者在不同类型的串行学习任务中的适应性和性能,例如语音识别、机器翻译、文本摘要等。
    8. 算法的泛化能力:探索DAgger和动态预言者算法在不同领域和语言中的泛化能力。
    9. 集成学习:研究将DAgger与其他集成学习方法结合使用,以进一步提高模型性能。
    10. 超参数调整:深入研究DAgger算法中超参数的选择,如束搜索的大小、开始使用DAgger训练的时机等,以找到最佳的训练策略。

    这些探索点为未来的研究提供了方向,有助于进一步提高串行学习任务的性能和模型的泛化能力。

    Q: 总结一下论文的主要内容

    A: 这篇论文主要关注于改善自然语言处理(NLP)中串行学习任务的自回归训练方法。以下是论文的主要内容概述:

    1. 问题识别:论文指出了在NLP任务中,如串行标注、文本生成等,常用的自回归训练方法(例如教师强制和计划抽样)存在曝光偏差和指标不匹配问题。
    2. DAgger算法:为了解决这些问题,论文采用了DAgger算法,它通过动态预言者(Dynamic Oracle)来引导模型,以减少曝光偏差并提供无遗憾保证。
    3. 动态预言者:论文提出了两种动态预言者,一种用于可分解的评估指标(如部分匹配F1),另一种用于不可分解的评估指标(如BLEU和ROUGE)。对于可分解指标,论文设计了精确的动态预言者算法;对于不可分解指标,则提出了基于束搜索的近似算法。
    4. 实验验证:论文在命名实体识别(NER)、文本摘要和机器翻译(MT)任务上进行了实验,验证了所提出方法的有效性。实验结果表明,在NER和文本摘要任务中,使用DAgger结合动态预言者的训练方法优于传统的教师强制和计划抽样方法。然而,在机器翻译任务中,DAgger的表现并不总是优于其他基线方法。
    5. 进一步分析:论文对机器翻译任务中DAgger表现不佳的现象进行了分析,并提出了可能的改进方向,例如使用更大的束宽度和在训练早期阶段开始使用DAgger。
    6. 相关工作:论文回顾了与动态预言者相关的研究,包括依赖解析、词错误率(WER)和构成分析等领域的研究。
    7. 结论与局限性:论文总结了DAgger结合动态预言者在不同任务上的表现,并讨论了其局限性,如在非可分解指标下的运行时间和近似动态预言者的优化问题。
    8. 未来工作:论文提出了未来研究的方向,包括优化运行时、探索随机动态预言者、扩展到其他评估指标和模型等。

    总的来说,这篇论文通过提出新的动态预言者算法,并将其与DAgger算法结合,旨在改善串行学习任务的训练过程,减少曝光偏差,并在多个NLP任务上取得了一定的实验成功。

  • 联邦推荐系统与基础模型:迈向个性化推荐的未来

    在数字时代,信息爆炸式增长,人们迫切需要能够帮助他们筛选、过滤和个性化信息的系统。推荐系统(RS)应运而生,成为过滤在线信息的重要工具,帮助用户发现符合其偏好的产品、内容和服务。然而,传统的推荐系统严重依赖于集中式数据收集和处理,存在着巨大的隐私风险和运营瓶颈。

    用户隐私的至关重要性

    随着欧洲通用数据保护条例(GDPR)等严格数据保护法规的出台,人们对用户隐私的重视程度空前提高。GDPR 强调将用户数据存储在本地设备上,而不是上传到中央服务器。

    联邦学习:保护用户隐私的利器

    为了解决这些隐私问题,谷歌提出了联邦学习(FL)框架,该框架旨在跨分散设备训练模型,同时将数据保留在本地。FL 在客户端进行本地模型训练和在中央服务器上进行全局参数聚合之间交替进行。

    联邦推荐系统:将联邦学习与推荐系统相结合

    将 FL 与 RS 相结合对于保护推荐服务中的用户隐私至关重要,这催生了联邦推荐系统(FRS)的兴起。在 FRS 中,每个客户端通常代表单个用户的设备。FRS 近年来在服务提供、日常安排、驾驶规划等领域取得了令人瞩目的成果,对人们的日常生活产生了重大影响。

    FRS 面临的挑战:数据异质性和稀疏性

    与 FL 类似,FRS 需要将用户数据保留在本地以保护用户隐私。然而,在大多数情况下,每个客户端通常只包含一个用户访问的项目的相关数据,与整个项目集相比,数据量非常小,造成了严重的数据稀疏性问题。此外,不同的用户具有不同的行为和偏好,导致数据异质性。这两种问题的存在会导致模型次优,降低推荐效果。

    基础模型:解决数据稀疏性和异质性的新方向

    近年来,随着 ChatGPT 和扩散模型在语言理解和图像生成方面的显著成功,一种构建人工智能系统的新范式——基础模型(FM)引起了广泛关注。FM 通过使用自监督学习来优化训练目标,并能够通过微调或提示适应各种下游任务。

    FM 的优势:强大的知识库和自适应能力

    FM 通常使用来自多个来源的大量数据进行训练,能够在执行特定下游任务时整合大量额外知识,有效缓解数据稀疏性问题。此外,FM 能够捕获复杂的用户偏好和行为,并通过微调快速适应特定客户数据,从而提高本地模型的性能。

    将 FM 整合到 FRS 中:迈向更强大的个性化推荐

    将 FM 整合到 FRS 中,可以利用 FM 的强大知识库和自适应能力来解决 FRS 面临的数据稀疏性和异质性问题,并进一步提升用户体验。

    整合 FM 的三个关键阶段

    • 客户端模型更新: FM 可以通过迁移学习将从大型语料库中学习到的知识应用于本地数据,并通过微调适应特定用户行为数据,从而在数据稀疏的情况下实现良好的推荐效果。
    • 通信: FM 可以利用其强大的表示能力,通过高效的数据表示和语义压缩技术,将模型更新信息压缩成更紧凑的表示,从而减少客户端和服务器之间的数据传输量。
    • 全局聚合: FM 可以利用其强大的语义理解能力,根据每个参与者更新的语义和上下文关系,智能地聚合更新,并根据上下文信息为每个更新分配不同的权重,从而更准确地反映用户偏好和行为。

    整合 FM 所面临的挑战

    • 数据隐私和安全: FM 有可能记忆和复制训练集中的数据,从而泄露敏感信息。需要使用额外的加密技术来保护用户数据,例如差分隐私和同态加密。
    • 数据稀疏性和样本不平衡: 尽管 FM 能够进行零样本和少样本学习,但仍需要优化才能处理极其稀疏的数据。需要使用数据增强技术来生成更多训练样本,或者利用来自其他领域的知识迁移来缓解数据稀疏性问题。
    • 模型同步和异质性: 由于 FM 的参数数量巨大,模型同步需要大量的计算资源和时间。需要使用梯度压缩技术来减少模型同步期间传输的数据量,或者采用异步更新策略来提高同步效率。
    • 模型可解释性和透明度: FM 通常被视为黑盒模型,难以理解其内部工作机制。需要使用可解释性 AI 技术来提供模型决策的透明和可理解的解释,例如注意力机制和特征重要性分析。

    未来的研究方向

    • 数据增强: 利用 FM 生成更多用户交互数据,缓解数据稀疏性问题。
    • 冷启动推荐: 利用 FM 的强大的零样本和少样本学习能力,为冷启动用户和项目提供有效的推荐。
    • 多模态推荐: 利用 FM 的多模态数据处理能力,构建更全面和多维的用户画像,从而提高推荐的个性化程度。
    • 实时推荐: 利用 FM 的上下文理解能力,根据用户的实时行为和上下文数据动态地提供个性化内容。
    • 增强推荐可解释性: 利用 FM 的自然语言生成能力,为用户提供清晰且连贯的推荐结果解释。
    • 高级指标: 开发针对 FM 在 RS 中特定应用场景的新的评估指标,特别是针对生成式推荐。

    总结

    将 FRS 与 FM 相结合,能够在保护用户隐私的同时,提供更准确的个性化推荐服务,为个性化推荐的未来开辟了新的方向。未来,随着技术的不断发展,FM 在 FRS 中将发挥越来越重要的作用。

    参考文献

    [1] H. Ko, S. Lee, Y. Park, and A. Choi, “A survey of recommendation systems: recommendation models, techniques, and application fields,” Electronics, vol. 11, no. 1, p. 141, 2022.

    [2] P. Voigt and A. Von dem Bussche, “The eu general data protection regulation (gdpr),” A Practical Guide, 1st Ed., Cham: Springer International Publishing, vol. 10, no. 3152676, pp. 10–5555, 2017.

    [3] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Artificial intelligence and statistics.   PMLR, 2017, pp. 1273–1282.

    [4] C. Zhang, Y. Xie, H. Bai, B. Yu, W. Li, and Y. Gao, “A survey on federated learning,” Knowledge-Based Systems, vol. 216, p. 106775, 2021.

    [5] R. Bommasani, D. A. Hudson, E. Adeli, R. Altman, S. Arora, S. von Arx, M. S. Bernstein, J. Bohg, A. Bosselut, E. Brunskill et al., “On the opportunities and risks of foundation models,” arXiv preprint arXiv:2108.07258, 2021.

    [6] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” arXiv preprint arXiv:2301.09109, 2023.

    [7] C. Zhang, G. Long, H. Guo, X. Fang, Y. Song, Z. Liu, G. Zhou, Z. Zhang, Y. Liu, and B. Yang, “Federated adaptation for foundation model-based recommendations,” arXiv preprint arXiv:2405.04840, 2024.

    [8] C. Chen, X. Feng, J. Zhou, J. Yin, and X. Zheng, “Federated large language model: A position paper,” arXiv preprint arXiv:2307.08925, 2023.

    [9] W. Zhuang, C. Chen, and L. Lyu, “When foundation model meets federated learning: Motivations, challenges, and future directions,” arXiv preprint arXiv:2306.15546, 2023.

    [10] S. Yu, J. P. Muñoz, and A. Jannesari, “Federated foundation models: Privacy-preserving and collaborative learning for large models,” arXiv preprint arXiv:2305.11414, 2023.

    [11] H. Woisetschläger, A. Isenko, S. Wang, R. Mayer, and H.-A. Jacobsen, “A survey on efficient federated learning methods for foundation model training,” arXiv preprint arXiv:2401.04472, 2024.

    [12] S. Chen, G. Long, T. Shen, and J. Jiang, “Prompt federated learning for weather forecasting: Toward foundation models on meteorological data,” arXiv preprint arXiv:2301.09152, 2023.

    [13] X. Li and J. Wang, “Position paper: Assessing robustness, privacy, and fairness in federated learning integrated with foundation models,” arXiv preprint arXiv:2402.01857, 2024.

    [14] C. Ren, H. Yu, H. Peng, X. Tang, A. Li, Y. Gao, A. Z. Tan, B. Zhao, X. Li, Z. Li et al., “Advances and open challenges in federated learning with foundation models,” arXiv preprint arXiv:2404.15381, 2024.

    [15] P. Liu, L. Zhang, and J. A. Gulla, “Pre-train, prompt, and recommendation: A comprehensive survey of language modeling paradigm adaptations in recommender systems,” Transactions of the Association for Computational Linguistics, vol. 11, pp. 1553–1571, 2023.

    [16] L. Wu, Z. Zheng, Z. Qiu, H. Wang, H. Gu, T. Shen, C. Qin, C. Zhu, H. Zhu, Q. Liu et al., “A survey on large language models for recommendation,” arXiv preprint arXiv:2305.19860, 2023.

    [17] L. Yang, B. Tan, V. W. Zheng, K. Chen, and Q. Yang, “Federated recommendation systems,” Federated Learning: Privacy and Incentive, pp. 225–239, 2020.

    [18] Z. Alamgir, F. K. Khan, and S. Karim, “Federated recommenders: methods, challenges and future,” Cluster Computing, vol. 25, no. 6, pp. 4075–4096, 2022.

    [19] D. Javeed, M. S. Saeed, P. Kumar, A. Jolfaei, S. Islam, and A. K. M. N. Islam, “Federated Learning-based Personalized Recommendation Systems: An Overview on Security and Privacy Challenges,” IEEE Transactions on Consumer Electronics, pp. 1–1, 2024.

    [20] Z. Sun, Y. Xu, Y. Liu, W. He, L. Kong, F. Wu, Y. Jiang, and L. Cui, “A survey on federated recommendation systems,” IEEE Transactions on Neural Networks and Learning Systems, 2024.

    [21] C. Zhang, G. Long, T. Zhou, P. Yan, Z. Zhang, C. Zhang, and B. Yang, “Dual personalization on federated recommendation,” in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, 2023, pp. 4558–4566.

    [22] Z. Li, G. Long, and T. Zhou, “Federated recommendation with additive personalization,” in The Twelfth International Conference on Learning Representations, 2024. [Online]. Available: https://openreview.net/forum?id=xkXdE81mOK

    [23] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

    [24] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.

    [25] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16×16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.

    [26] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell et al., “Language models are few-shot learners,” Advances in neural information processing systems, vol. 33, pp. 1877–1901, 2020.

    [27] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning.   PMLR, 2021, pp. 8748–8763.

    [28] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances in neural information processing systems, vol. 33, pp. 6840–6851, 2020.

    [29] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, and T. Salimans, “Cascaded diffusion models for high fidelity image generation,” Journal of Machine Learning Research, vol. 23, no. 47, pp. 1–33, 2022.

    [30] C. Saharia, W. Chan, H. Chang, C. Lee, J. Ho, T. Salimans, D. Fleet, and M. Norouzi, “Palette: Image-to-image diffusion models,” in ACM SIGGRAPH 2022 conference proceedings, 2022, pp. 1–10.

    [31] Y. Wang, J. Zhang, and Y. Wang, “Do generated data always help contrastive learning?” arXiv preprint arXiv:2403.12448, 2024.

    [32] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar et al., “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.

    [33] M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby et al., “Dinov2: Learning robust visual features without supervision,” arXiv preprint arXiv:2304.07193, 2023.

    [34] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo et al., “Segment anything,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 4015–4026.

    [35] X. Wang, X. Zhang, Y. Cao, W. Wang, C. Shen, and T. Huang, “Seggpt: Segmenting everything in context,” arXiv preprint arXiv:2304.03284, 2023.

  • 信息检索的鲁棒性:从对抗攻击到分布外泛化

    信息检索(IR)系统是人们获取信息的重要途径。近年来,随着深度学习的快速发展,深度神经网络开始被应用于信息检索系统中,取得了显著的有效性。然而,除了有效性之外,这些神经信息检索模型也继承了神经网络固有的鲁棒性缺陷,这阻碍了它们在现实世界中的广泛应用。

    为什么要关注信息检索的鲁棒性?

    信息检索系统在实际应用中需要面对各种意想不到的情况,例如:

    • 对抗攻击: 恶意攻击者可能会利用信息检索模型的漏洞,通过修改查询或文档来操纵搜索结果,例如黑帽 SEO。
    • 分布外泛化: 信息检索模型在训练数据上表现良好,但在实际应用中可能会遇到与训练数据分布不同的数据,例如新领域数据或新类型的查询。

    为了确保信息检索系统的可靠性,研究人员开始关注信息检索模型的鲁棒性问题。

    对抗鲁棒性:防御恶意攻击

    信息检索系统面临的对抗攻击主要分为两类:

    • 检索攻击: 攻击者通过修改文档或查询来影响检索结果,例如在文档中插入恶意关键词或在查询中添加干扰词。
    • 排序攻击: 攻击者通过修改文档或查询来影响文档的排序,例如通过修改文档内容或查询语句来提升特定文档的排名。

    为了防御对抗攻击,研究人员提出了多种对抗防御方法,例如:

    • 攻击检测: 通过分析查询或文档的特征来识别潜在的攻击行为。
    • 经验防御: 通过数据增强、对抗训练等方法来提升信息检索模型的鲁棒性。
    • 理论防御: 通过证明信息检索模型在特定攻击下的鲁棒性来保证其安全性。

    分布外鲁棒性:应对数据分布变化

    信息检索系统在实际应用中会遇到与训练数据分布不同的数据,例如:

    • 新领域数据: 信息检索模型在特定领域训练,但在实际应用中需要处理其他领域的数据,例如从新闻领域切换到医疗领域。
    • 新类型查询: 信息检索模型在特定类型的查询上训练,但在实际应用中可能会遇到新的查询类型,例如从一般查询切换到问答式查询。

    为了提升信息检索模型的分布外鲁棒性,研究人员提出了多种方法,例如:

    • 数据增强: 通过生成新的数据来模拟不同的数据分布,例如使用生成模型来生成不同领域的数据。
    • 领域建模: 通过学习不同领域之间的差异来提升信息检索模型的泛化能力。
    • 模型结构修改: 通过调整信息检索模型的结构来提升其分布外鲁棒性。

    大型语言模型(LLMs)与信息检索的鲁棒性

    大型语言模型的出现为信息检索带来了新的机遇和挑战。LLMs 可以用于增强信息检索模型的鲁棒性,例如:

    • 检索增强: LLM 可以帮助信息检索模型更好地理解查询意图,从而找到更相关的文档。
    • 排序增强: LLM 可以帮助信息检索模型更好地评估文档的质量,从而提升排序结果的准确性。

    然而,LLMs 也带来了新的挑战,例如:

    • LLMs 本身的鲁棒性问题: LLM 本身也存在鲁棒性问题,例如容易受到对抗攻击的影响。
    • LLMs 与信息检索系统整合的鲁棒性问题: LLM 与信息检索系统的整合也需要考虑鲁棒性问题,例如如何确保 LLM 的输出不会影响信息检索系统的性能。

    未来方向

    信息检索的鲁棒性是一个持续的研究方向,未来还需要关注以下问题:

    • 建立统一的鲁棒性评估指标: 目前针对不同类型的鲁棒性问题,有不同的评估指标,需要建立一个统一的评估指标来系统地评估信息检索模型的鲁棒性。
    • 探索通用对抗攻击方法: 目前对抗攻击方法通常针对特定阶段的攻击,需要探索能够针对所有阶段的通用对抗攻击方法。
    • 利用 LLM 生成数据来提升分布外鲁棒性: 利用 LLM 的生成能力来生成不同领域的数据,可以有效地提升信息检索模型的分布外鲁棒性。

    参考文献

    • Wu, C., Zhang, R., Guo, J., de Rijke, M., Fan, Y., & Cheng, X. (2023). PRADA: Practical Black-Box Adversarial Attacks against Neural Ranking Models. Transactions on Information Systems, 41(4), 89.
    • Liu, Y.-A., Zhang, R., Guo, J., de Rijke, M., Fan, Y., & Cheng, X. (2023c). Black-Box Adversarial Attacks against Dense Retrieval Models: A Multi-View Contrastive Learning Method. In Proceedings of the 32nd ACM International Conference on Information & Knowledge Management (pp. 1647-1656).
    • Thakur, N., Reimers, N., Rücklé, A., Srivastava, A., & Gurevych, I. (2021). BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models. In Advances in Neural Information Processing Systems (pp. 1-12).
    • Kurland, O., & Tennenholtz, M. (2022). Competitive Search. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 1017-1026).
  • 让语言模型更懂你:Softmax Direct Preference Optimization 在推荐系统中的应用

    推荐系统旨在根据用户的偏好数据预测个性化的排名。随着语言模型(LM)的兴起,基于 LM 的推荐系统因其丰富的世界知识和强大的推理能力而受到广泛关注。大多数基于 LM 的推荐系统将历史交互转化为语言提示,将正向项目作为目标响应,并使用语言建模损失来微调 LM。然而,目前的优化目标未能充分利用偏好数据,也未针对个性化排名任务进行优化,这阻碍了基于 LM 的推荐系统的性能。

    受人类偏好对齐中直接偏好优化 (DPO) 的最新进展以及 softmax 损失在推荐中的成功的启发,我们提出了 Softmax-DPO (S-DPO) 来将排名信息灌输到 LM 中,帮助基于 LM 的推荐系统区分首选项目和负向项目,而不是仅仅关注正向项目。

    具体来说,我们将用户偏好数据中的多个负向项目纳入考虑,并设计了一个针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,该版本与 softmax 采样策略相关联。从理论上讲,我们将 S-DPO 与负采样上的 softmax 损失联系起来,发现它具有挖掘难负样本的副作用,这确保了它在推荐任务中的出色能力。从经验上讲,在三个真实世界数据集上进行的大量实验表明,S-DPO 能够有效地模拟用户偏好,并进一步提高推荐性能,同时缓解 DPO 的数据似然下降问题。

    为什么语言模型在推荐系统中表现不佳?

    现有的基于 LM 的推荐系统通常使用语言建模损失来预测下一个 token,这与推荐任务中模拟用户偏好的目标存在显著差异。大多数基于 LM 的推荐系统通过利用专门的语言提示、将协作信号作为一种新的模态纳入,或扩展 LM 的词汇表来解决推荐任务。然而,这些推荐系统通常只考虑单个正向项目,并使用语言建模损失来更新 LM 参数,忽略了负向项目在推荐中的作用,阻碍了 LM 与用户偏好的对齐。

    S-DPO 如何提升推荐效果?

    S-DPO 是一种针对基于 LM 的推荐系统量身定制的 DPO 损失的替代版本,它通过整合多个负向项目来将排名信息灌输到 LM 中。S-DPO 首先利用监督微调来注入领域知识,提高 LM 遵循指令的能力,然后进入偏好对齐阶段。在偏好对齐阶段,S-DPO 将每个语言提示与正向项目和随机采样的多个负向项目配对,构建基于文本的偏好数据。

    S-DPO 的优势在于:

    • 利用多个负向项目: S-DPO 充分利用了用户偏好数据中的多个负向项目,而不是像 DPO 那样只考虑单个负向项目。这使得 S-DPO 能够更有效地学习用户偏好,并提升推荐性能。
    • 与 softmax 损失的联系: S-DPO 与负采样上的 softmax 损失密切相关,这表明 S-DPO 能够有效地进行排名优化。
    • 挖掘难负样本: S-DPO 能够挖掘难负样本,这些样本能够帮助模型更好地学习用户偏好,并提升推荐性能。

    实验结果验证 S-DPO 的有效性

    我们在三个真实世界数据集上进行了广泛的实验,结果表明 S-DPO 在 Hit Ratio@1 指标上比其他传统推荐系统和基于 LM 的推荐系统获得了显著的提升,验证了 S-DPO 的有效性。

    此外,我们还进行了消融实验,结果表明:

    • S-DPO 比仅使用单个负向项目的 DPO 性能更好,这表明多个负向项目能够提供更有效的排名梯度。
    • S-DPO 能够缓解 DPO 的数据似然下降问题,这表明 S-DPO 能够更好地学习用户偏好,并提升推荐性能。

    未来展望

    S-DPO 作为 DPO 的一种推广,为未来的基于 LM 的推荐系统提供了宝贵的见解,并有可能惠及推荐系统以外的其他研究领域。未来,我们将继续探索 S-DPO 在其他场景下的应用,并进一步研究 softmax 排名损失在 LM 中的应用。

  • 低显存也能玩转8K生成!清华Inf-DiT:超高分辨率图片生成新突破

    近年来,人工智能技术在图像生成领域取得了显著进展,特别是基于扩散模型的超高分辨率图像生成技术,能够生成令人惊叹的逼真图像。然而,现有的方法往往面临着显存占用过高的问题,限制了其在实际应用中的推广。为了解决这一难题,清华大学联合智谱AI推出了全新的超高分辨率图片上采样模型——Inf-DiT。

    单向块注意力机制:巧妙降低显存占用

    Inf-DiT的核心创新在于提出了一种 单向块注意力机制。传统的扩散模型在生成超高分辨率图像时,模型内部的隐藏状态会占据大量的显存。例如,一个 2048x2048x1280 的隐藏状态就会占据 20GB 的显存。仅仅对注意力和卷积运算进行优化并不能有效减少这部分占用。

    Inf-DiT 巧妙地将图像分成多个块,并采用单向块注意力机制,即每个块只关注自己以及左上角三个块的信息。这种左上到右下的单向依赖关系,使得模型不必同时生成整张图像,从而将隐藏状态的显存占用从 O(N^2) 降低到 O(N)。同时,模型在各层隐藏状态上进行交互,有效地聚合了不同块之间的语义信息。

    模型结构:兼顾局部和全局一致性

    Inf-DiT 结合了单向块注意力机制和之前提出的 DiT(Diffusion Transformer)架构,设计了一个全新的上采样模型。为了保持与原图的局部和全局一致性,模型采用了多种方式输入低分辨率图片:

    • 局部一致性: 低分辨率图片在简单的缩放后,会与带噪图片拼接作为 DiT 的输入,位置一一映射能提供良好的归纳偏差。但单向块注意力会导致每个块无法看到低分辨率图片的右下角部分,因此模型引入了 nearby LR cross attention 来对低分辨率图片的局部进行注意力操作。
    • 全局一致性: 为了保证与低分辨率图片的全局语义一致性(艺术风格、物体材质等),模型利用 CLIP 的图像编码器获取了低分辨率图片的嵌入,并将其与 DiT 的时间嵌入相加。同时,由于 CLIP 可以将图文对齐到同一空间中,模型还能够利用文本对生成结果进行控制,即使模型没有在任何文本上进行训练。

    模型评测:多方面验证生成能力

    Inf-DiT 在多个方面验证了其强大的生成能力:

    • 超高分辨率图片生成: 模型成功地生成了 2048 和 4096 分辨率的图片,并与其他模型进行了比较。
    • 超分辨率: 模型在 DIV2K valid 数据集上进行了测试,该数据集包含多种真实场景的摄影图片。
    • 人工评测: 研究人员让志愿者对模型生成的图片进行排序,评估其细节保真度、全局一致性和原图一致性。Inf-DiT 在三个方面都取得了最佳结果。

    迭代式上采样:从低分辨率到高分辨率

    Inf-DiT 可以接受各种分辨率的图像作为输入,因此可以用于对低分辨率图像进行迭代式上采样。研究人员测试了从 32x32 分辨率上采样到 2048x2048 分辨率的过程,结果表明模型可以在不同的分辨率下生成不同频率的细节,例如脸型、眼球、眉毛等。

    总结

    Inf-DiT 突破了传统超高分辨率图像生成模型的显存限制,在低显存环境下也能生成高质量的 8K 分辨率图片。其单向块注意力机制和兼顾局部与全局一致性的模型结构,为超高分辨率图像生成技术带来了新的突破。相信 Inf-DiT 的出现将推动超高分辨率图像生成技术在更多领域中的应用。

    参考文献


    超越界限:Inf-DiT与图像超分辨率的新篇章

    引言

    在数字时代,图像的清晰度和分辨率一直是我们追求的目标。无论是在艺术创作、广告设计还是日常摄影中,一幅超高清的图像总能让人眼前一亮。然而,传统的图像放大技术往往伴随着质量的损失。如今,随着人工智能技术的飞速发展,一种名为Inf-DiT的新型图像超分辨率模型,为我们打开了一扇全新的大门。

    Inf-DiT:图像质量的革命者

    由清华大学的研究团队开发的Inf-DiT模型,以其卓越的性能在图像生成领域引起了轰动。它不仅能够生成高达4096×4096分辨率的超高清图像,而且在内存使用上相比传统方法节省了5倍以上。这一突破性进展,无疑为图像编辑和设计领域带来了革命性的变化。

    技术解析:Unidirectional Block Attention(UniBA)

    Inf-DiT的核心是UniBA算法,它通过一种新颖的单向块注意力机制,将图像分割成小块,并以一种序列化的方式批量生成,从而显著降低了生成过程中的内存开销。这种机制不仅保持了图像块之间的依赖关系,还通过特征的逐层传播,实现了远距离块间的间接交互。

    实验验证:性能与效果的双重突破

    通过一系列的实验,Inf-DiT在机器和人类评估中均展现出了卓越的性能。无论是在细节的真实性、全局的连贯性还是与原始低分辨率输入的一致性上,Inf-DiT都获得了最高评价。此外,它在迭代上采样实验中也表现出色,能够连续多次上采样图像,同时生成不同频率的细节。

    应用前景:无限可能的探索

    Inf-DiT的应用前景广阔,无论是在复杂的设计项目、广告制作还是海报、壁纸的创作中,它都能提供强大的支持。更令人兴奋的是,Inf-DiT还具备零样本文本控制能力,这意味着即使没有经过图像-文本配对训练,它也能根据文本提示进行图像生成。

    结语

    Inf-DiT的出现,不仅仅是技术上的一次飞跃,更是对传统图像处理方法的一次颠覆。随着人工智能技术的不断进步,我们有理由相信,未来在图像质量和分辨率上,我们将能够达到前所未有的高度。

    参考文献

    1. Yang, Z. et al. “Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer.” arXiv:2405.04312v2 [cs.CV], 8 May 2024.