LLM2D

摘要

arXiv:2404.06511v2 宣告类型: replace-cross 摘要：本文通过分解多阶段、模块化推理框架解决视频问答（videoQA）任务。此前的模块化方法通过单一未基于视觉内容的规划阶段显示出了一定的前景。然而，通过一个简单而有效的基线，我们发现这样的系统在具有挑战性的视频问答设置中会导致脆弱的行为。因此，与传统的单一阶段规划方法不同，我们提出了一种多阶段系统，该系统包括事件解析器、定位阶段和最终推理阶段，并结合外部记忆。所有阶段都是无需训练的，并使用大模型的少量提示进行执行，在每个阶段生成可解释的中间输出。通过将潜在的规划和任务复杂性分解，我们的方法MoReVQA在标准视频问答基准（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）上取得了最先进的结果，并扩展到了相关任务（基于视觉内容的视频问答、段落 captioning）。