LLM2D
BoViLA:基于大型语言模型的自问自答引导视频语言对齐
BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering
作者: Jin Chen, Kaijing Ma, Haojian Huang, Jiayu Shen, Han Fang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, Yanmei Kang
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02768v1

摘要

多模态模型的开发正在迅速发展,其中一些模型展示了非凡的能力。然而,对视频-文本对进行标注仍然成本高昂且不足。以视频问答 (VideoQA) 任务为例,人工标注的问题和答案往往只涵盖视频的一部分,而且相似的语义也可以通过不同的文本形式表达,导致视频信息利用不足。为了解决这个问题,我们提出了 BoViLA,一个自训练框架,它通过基于 LLM 的自我问答在训练过程中增加问题样本,帮助模型更全面地利用视频信息和 LLM 的内部知识,从而提高模态对齐。为了过滤掉质量不好的自生成问题,我们引入了证据深度学习 (EDL) 来估计不确定性,并通过评估上下文中的模态对齐来评估自生成问题的质量。据我们所知,这项工作是第一个探索基于 LLM 的模态对齐自训练框架的研究。我们在五个强大的 VideoQA 基准上评估了 BoViLA,它优于几种最先进的方法,并证明了它的有效性和通用性。此外,我们对自训练框架和基于 EDL 的不确定性过滤机制进行了广泛的分析。代码将在 https://github.com/dunknsabsw/BoViLA 上提供。