LLM2D

摘要

arXiv:2410.03739v2 宣告类型: replace-cross 摘要：语法 induction 可以从丰富的异构信号中受益，例如文本、视觉和声学信号。在这个过程中，不同模态的特征本质上相互补充。基于这种直觉，本文引入了一个新颖的无监督视觉-音频-文本语法 induction 任务（名为 VAT-GI），从并行的图像、文本和语音输入中诱导组成语法树。鉴于语言语法本就在文本之外自然存在，我们认为在语法 induction 中文本不一定是最主要的模态。因此，我们进一步引入了 VAT-GI 的无文本设置，在此设置中，任务仅依赖于视觉和听觉输入。为了解决这一任务，我们提出了一种视觉-音频-文本递归自动编码器（VaTiora）框架，该框架利用丰富的模态特定和互补特征进行有效的语法解析。此外，我们构建了一个更具挑战性的基准数据集来评估 VAT-GI 系统的泛化能力。在两个基准数据集上的实验表明，我们提出的 VaTiora 系统更有效地整合了各种多模态信号，并且在 VAT-GI 中呈现了新的最佳性能。