摘要
arXiv:2410.03739v2 宣告类型: replace-cross
摘要:语法 induction 可以从丰富的异构信号中受益,例如文本、视觉和声学信号。在这个过程中,不同模态的特征本质上相互补充。基于这种直觉,本文引入了一个新颖的无监督视觉-音频-文本语法 induction 任务(名为 VAT-GI),从并行的图像、文本和语音输入中诱导组成语法树。鉴于语言语法本就在文本之外自然存在,我们认为在语法 induction 中文本不一定是最主要的模态。因此,我们进一步引入了 VAT-GI 的无文本设置,在此设置中,任务仅依赖于视觉和听觉输入。为了解决这一任务,我们提出了一种视觉-音频-文本递归自动编码器(VaTiora)框架,该框架利用丰富的模态特定和互补特征进行有效的语法解析。此外,我们构建了一个更具挑战性的基准数据集来评估 VAT-GI 系统的泛化能力。在两个基准数据集上的实验表明,我们提出的 VaTiora 系统更有效地整合了各种多模态信号,并且在 VAT-GI 中呈现了新的最佳性能。