LLM2D

摘要

arXiv:2504.15918v1 类型: cross 摘要：在教学视频中定位特定片段是一种高效的方法，以获取指导知识。一般来说，获取视频片段以进行语音解释和视觉示范的任务被称为视觉答案定位（VAL）。然而，当用户使用系统时，他们经常需要多次互动才能获得符合预期的答案。在这些互动过程中，人类通过自我提问来加深对视频内容的理解，从而准确地确定位置。因此，我们提出了一项新的任务，名为 In-VAL，旨在模拟在获得视觉答案过程中人类与视频之间的多次互动。In-VAL 任务要求交互性地解决几个语义空白问题，包括 1）输入问题中的用户意图模糊性，2）视频字幕中语言的不完整性，和 3）视频片段中内容的断裂性。为了解决这些问题，我们提出了 Ask2Loc，这是一种通过提问来解决 In-VAL 的框架。它包括三个关键模块：1）一个聊天模块，用于细化初始问题并揭示清晰的意图，2）一个重写模块，用于生成流畅的语言并创建完整的描述，以及 3）一个搜索模块，用于扩大局部上下文并提供集成内容。我们在三个重建的 In-VAL 数据集上进行了广泛的实验。与传统的端到端和两阶段方法相比，我们提出的 Ask2Loc 在 In-VAL 任务上可以提高高达 14.91（mIoU）的性能。我们的代码和数据集可以在 https://github.com/changzong/Ask2Loc 访问。