人工智能的“心智地图”:从语音中构建语义解析

想象一下,你在参观一座艺术博物馆,导游不仅讲解每件艺术品,还会介绍画廊和建筑本身的历史和独特之处。通过这段对话,你就能在脑海中构建出一张博物馆的“心智地图”,其中各个实体及其关系都与博物馆中的真实世界对应。我们每天都在通过对话进行这种迭代式的知识构建,比如教朋友如何换车油,或者和牙医一起查看X光片。随着人工智能代理越来越普遍地融入我们的生活,为它们开发这种能力变得越来越重要。

为了实现这一目标,本文介绍了语义解析在上下文环境中的应用(SPICE),这是一个旨在捕捉通过语义语言进行迭代式知识构建过程的任务。它强调了根据先验知识和新信息持续更新上下文状态的必要性。SPICE要求代理在结构化的、密集的信息框架中维护其上下文状态,该框架可扩展且可解释,便于用户检查或与下游系统组件集成。SPICE通过将更新公式化为形式语义解析来实现这一点,形式语言定义了构建的上下文的允许解空间。

由于SPICE任务旨在模拟现实世界和具身应用,例如教移动机器人了解环境或帮助医生进行医学图像标注,因此SPICE与传统的基于文本的语义解析之间存在关键差异。首先,SPICE考虑在基于语义的、多模态的上下文中解析语言。在这些情况下,语言可能存在歧义,只有通过考虑来自视觉等多模态上下文信息才能解决。

此外,SPICE支持以语音和文本形式出现的语言输入。在现实世界中具身的交互中,语言主要是口语,而不是书面语。虽然现代自动语音识别(ASR)技术非常准确,但它仍然对环境噪声和混响敏感,将输入语言表示为波形和噪声ASR转录可以提高鲁棒性。虽然本文没有考虑这一点,但SPICE框架也支持副语言输入,例如面部表情、眼球注视和手势。

VG-SPICE:一个全新的数据集

本文提出了一种新颖的数据集VG-SPICE,该数据集源于视觉基因组(Visual Genome)数据集(Krishna等人,2016),该数据集包含注释的视觉场景图,表示组成实体和关系介词,并通过额外的处理和合成增强来形成SPICE任务的基础表示。VG-SPICE模拟了视觉场景图的对话式构建,其中图像中包含的实体和关系的知识图表示必须从视觉输入和音频对话中收集。该数据集以及为VG-SPICE训练的初始模型,为未来的研究工作奠定了基线。图1展示了典型的VG-SPICE样本示例。该图展示了如何从视觉场景和语音话语中提取潜在的语义解析,这些解析以已知场景信息为条件。

AViD-SP:一个多模态场景解析模型

为了应对VG-SPICE的挑战,本文的方法利用了一系列预训练模型,特别是针对SPICE的语义解析能力进行了微调。图2展示了本文的模型架构,称为音频-视觉对话场景解析器(AViD-SP)。本文框架的核心是预训练的Llama 2 7B模型(Touvron等人,2023b)。尽管本文部署了其最小的变体,但广泛的预训练赋予了本文模型强大的功能,特别是对于处理VG-SPICE中固有的各种语义解析非常有利。然而,Llama 2是在文本数据上训练的,缺乏对VG-SPICE中常见的多模态输入的固有支持。

为了适应各种输入,本文扩展了先前研究(Rubenstein等人,2023;Gong等人,2023;Lin等人,2023)中的技术,通过将来自预训练的特定于模态的特征提取器的嵌入投影到统一的固定维度空间中。这种方法已被证明能够使基于文本的LLM处理各种模态的信息。然而,将这些投影的嵌入直接集成到LLM的上下文窗口中会带来巨大的计算开销,因为它们的上下文长度通常很长。虽然先前研究通常采用池化方法(Gong等人,2023)通过模态来压缩嵌入,但这种策略无法完全解决合并各种模态嵌入以供LLM使用所带来的挑战。例如,音频嵌入比文本嵌入具有更精细的时间粒度,反之亦然,这使得下采样因子的调整变得复杂。此外,即使经过优化的下采样,池化嵌入也必须保留其原始的顺序,并且仅限于来自池化片段的信息。许多应用可以从能够建立涵盖局部和全局上下文的降采样特征以及在一定程度上重新排列这些特征的功能中受益。

为了克服这些挑战,本文引入了一种新颖的分组多模态注意力降采样器(GMADS)模块。该模块首先将来自非文本模态的嵌入投影到一个统一的固定维度空间中。本文为每个输入模态(音频和视觉,使用VG-SPICE)形成一组模态分组,以及一个从所有模态嵌入的串联派生的跨模态分组,每个分组都以特定于模态的标记为前缀。一系列自注意力层处理每个嵌入序列,并通过平均池化将输出下采样S倍。然后,将这些值与平均池化的预自注意力嵌入沿着嵌入维度连接起来,类似于跳跃连接。最终的投影调整输出以匹配Llama 2 7B解码器的维度,并将所有嵌入序列连接起来。该过程产生一个嵌入输出,该输出实际上被下采样了S/2倍。GMADS模块中的所有权重在所有组之间共享,大大减少了参数数量。此外,本文在降采样跨模态组输出的嵌入上采用了一个自监督表示学习目标,通过将它们上采样到原始大小,然后通过第二组自注意力层处理它们。然后,重建的跨模态嵌入按模态进行分割,每个模态投影都努力将它们恢复到原始输入大小。本文应用了等式1中概述的对比重建损失目标,使用相应的真实嵌入作为锚点,并将批次中的所有其他嵌入作为对比样本。

本文还观察到,当与更简单的文本输入(例如先前的上下文或ASR转录)组合时,非文本模态输入往往会崩溃。为了解决这个问题,本文包括了一个额外的正交性损失,旨在鼓励批次中每个序列中对齐的嵌入之间的最大差异。这种方法类似于先前促进不同类嵌入的努力(Ranasinghe等人,2021),但在本文的情况下,本文将每个嵌入视为一个不同的类样本。然而,考虑到这些嵌入序列的性质,一定程度的相似性是预期的,完全不同的值(余弦相似度小于零)是不可行的。因此,本文修改了等式2,包括一个允许最小相似度的轻微裕度。下面,ei表示批次中B个序列中的单个GMADS输出嵌入(预输出投影),每个序列的长度为K。

GMADS模块试图提供几个比直接使用原始模态嵌入与LLM解码器或平均池化更显著的优势。首先,与预训练的LLM相比,GMADS在更低的维度尺度上运行,这显着降低了内存需求,需要更大的解码器处理更短的(减少到原始大小的2/S)输入序列。此外,模态输入不需要与这些输入一起进行自回归生成,从而进一步节省了成本。其次,GMADS使模型能够选择性地学习其下采样过程,包括是否专注于局部或集成全局特征的选择,允许一定程度的信息重构。跨模态编码的加入使降采样嵌入的一部分能够捕获跨模态的基本信息,同时在输出中保持各个模态组件,确保输出嵌入的一部分以每个模态为条件,要求注意力机制对所有模态保持敏感。

未来展望

本文的研究表明,开发能够理解和在复杂的多模态环境中交互的系统非常重要。通过关注基于新的多模态信息持续更新上下文状态,SPICE代表着向更自然、更有效的人机交互的转变。

然而,VG-SPICE和AViD-SP仍然存在一些局限性,它们只是对SPICE的初步尝试。未来研究应该通过整合更现实的输入(如视频、3D环境和副语言线索)以及探索超越简单场景图更新的动态任务来解决这些局限性。Matterport3D(Chang等人,2017)或Habitat 3.0(Puig等人,2023)等环境为具身SPICE研究提供了有希望的途径。将SPICE扩展到包括依赖于代理上下文理解的次要任务,也可以增强其效用,例如在协同对话中帮助进行医学图像标注。

参考文献

  • Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L. J., Shamma, D. A., et al. (2016). Visual genome: Connecting language and vision using crowdsourced dense annotations. International Journal of Computer Vision, 119(1-2), 1-35.
  • Touvron, H., Lachaux, M., Lavril, T., Izacard, G., Hoffmann, M., Anthouard, V., et al. (2023a). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
  • Touvron, H., Lachaux, M., Lavril, T., Izacard, G., Hoffmann, M., Anthouard, V., et al. (2023b). Llama 2: Open and efficient foundation models. arXiv preprint arXiv:2307.09288.
  • Betker, A. (2022). Tortoise-tts-v2: A text-to-speech model based on diffusion. arXiv preprint arXiv:2205.15259.
  • Barker, J., Vincent, E., Watanabe, S., Fujita, Y., Weninger, F., and others. (2018). The chime-5 challenge: Towards robust speech recognition in real-world environments. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5724-5728. IEEE.
  • Rubenstein, M., Li, Y., and Choi, Y. (2023). Multimodal prompting for instruction following in large language models. arXiv preprint arXiv:2303.08048.
  • Gong, M., Zhang, Y., Li, S., Li, J., and Li, H. (2023). Multimodal prompting for vision-language tasks with large language models. arXiv preprint arXiv:2304.02997.
  • Lin, Y., Zhang, X., Wang, J., Zhang, Z., Zhou, B., and others. (2023). Multimodal prompting for vision-language tasks with large language models. arXiv preprint arXiv:2304.02997.
  • Oquab, M., Ramisa, A., Toderici, G., Hjelm, R. D., and others. (2024). Dinov2: Improved vision transformers with self-supervision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16387-16398.
  • Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., et al. (2022). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 19024-19045. PMLR.
  • Arora, S., Singh, S., and others. (2023). Towards robust semantic parsing from speech. arXiv preprint arXiv:2304.02256.
  • Ranasinghe, D., Chen, X., and others. (2021). Orthogonal contrastive learning for visual representation learning. arXiv preprint arXiv:2107.00311.
  • Chang, A. X., Dai, A., and others. (2017). Matterport3d: Learning from rgb-d data in indoor environments. In Proceedings of the IEEE International Conference on Computer Vision, pages 2929-2938.
  • Puig, D., Savva, M., and others. (2023). Habitat 3.0: Embodied ai research platform for large-scale 3d environments. arXiv preprint arXiv:2304.00566.

发表评论