LLM2D

摘要

语法归纳可以从丰富的异构信号中获益，例如文本、视觉和声学。在此过程中，来自不同模态的特征本质上相互补充。基于这种直觉，本工作引入了一种新颖的**无监督视觉-音频-文本语法归纳**任务（称为**VAT-GI**），从平行图像、文本和语音输入中推断出成分语法树。受语言语法天生存在于文本之外的事实启发，我们认为文本不应成为语法归纳中的主要模态。因此，我们进一步引入了 VAT-GI 的**无文本**设置，其中任务仅依赖于视觉和听觉输入。为了解决该任务，我们提出了一种视觉-音频-文本内部-外部递归自动编码器（**VaTiora**）框架，该框架利用丰富的模态特定特征和互补特征来有效地进行语法解析。此外，还构建了一个更具挑战性的基准数据集来评估 VAT-GI 系统的泛化能力。在两个基准数据集上的实验表明，我们提出的 VaTiora 系统在整合各种多模态信号方面更加有效，并且在 VAT-GI 方面也展现出新的最先进性能。