摘要
语法归纳可以从丰富的异构信号中获益,例如文本、视觉和声学。在此过程中,来自不同模态的特征本质上相互补充。基于这种直觉,本工作引入了一种新颖的**无监督视觉-音频-文本语法归纳**任务(称为**VAT-GI**),从平行图像、文本和语音输入中推断出成分语法树。受语言语法天生存在于文本之外的事实启发,我们认为文本不应成为语法归纳中的主要模态。因此,我们进一步引入了 VAT-GI 的**无文本**设置,其中任务仅依赖于视觉和听觉输入。为了解决该任务,我们提出了一种视觉-音频-文本内部-外部递归自动编码器(**VaTiora**)框架,该框架利用丰富的模态特定特征和互补特征来有效地进行语法解析。此外,还构建了一个更具挑战性的基准数据集来评估 VAT-GI 系统的泛化能力。在两个基准数据集上的实验表明,我们提出的 VaTiora 系统在整合各种多模态信号方面更加有效,并且在 VAT-GI 方面也展现出新的最先进性能。