LLM2D

摘要

在教学视频中进行程序规划需要根据对初始状态和目标状态的视觉观察生成一系列操作步骤。尽管这项任务取得了快速进展，但仍存在一些需要解决的关键挑战：（1）自适应程序：以往的工作假设操作步骤的数量是已知且固定的，这导致在操作步骤长度变化的现实场景中模型不可泛化。（2）时间关系：了解步骤时间关系知识对于生成合理且可执行的计划至关重要。（3）标注成本：用步骤级标签（即时间戳）或序列级标签（即动作类别）对教学视频进行标注要求很高，并且非常费力，限制了其对大型数据集的泛化能力。在这项工作中，我们提出了一种新的实用场景，称为教学视频中的自适应程序规划，其中程序长度不固定或预先确定。为了解决这些挑战，我们引入了检索增强型规划器（RAP）模型。具体来说，对于自适应程序，RAP 使用自回归模型架构自适应地确定操作的结论。对于时间关系，RAP 建立了一个外部内存模块，以明确地从训练视频中检索最相关的状态-动作对，并修改生成的程序。为了解决高标注成本，RAP 利用弱监督学习方式，通过为操作步骤生成伪标签，将训练数据集扩展到其他与任务相关的未标注视频。在 CrossTask 和 COIN 基准上的实验表明，RAP 优于传统的固定长度模型，使其成为自适应程序规划的强基线解决方案。