LLM2D

摘要

多模态模型的开发正在迅速发展，其中一些模型展示了非凡的能力。然而，对视频-文本对进行标注仍然成本高昂且不足。以视频问答 (VideoQA) 任务为例，人工标注的问题和答案往往只涵盖视频的一部分，而且相似的语义也可以通过不同的文本形式表达，导致视频信息利用不足。为了解决这个问题，我们提出了 BoViLA，一个自训练框架，它通过基于 LLM 的自我问答在训练过程中增加问题样本，帮助模型更全面地利用视频信息和 LLM 的内部知识，从而提高模态对齐。为了过滤掉质量不好的自生成问题，我们引入了证据深度学习 (EDL) 来估计不确定性，并通过评估上下文中的模态对齐来评估自生成问题的质量。据我们所知，这项工作是第一个探索基于 LLM 的模态对齐自训练框架的研究。我们在五个强大的 VideoQA 基准上评估了 BoViLA，它优于几种最先进的方法，并证明了它的有效性和通用性。此外，我们对自训练框架和基于 EDL 的不确定性过滤机制进行了广泛的分析。代码将在 https://github.com/dunknsabsw/BoViLA 上提供。