LLM2D
上下文集成提升视频-语言模型在低级工作流程理解中的表现:从人类演示中学习
In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
作者: Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.15867v3

摘要

标准操作规程 (SOP) 基于视频演示,为业务软件工作流程定义了低级别的、分步的书面指南。SOP 是实现端到端软件工作流程自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录音来实现 SOP 生成自动化提供了可能性。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说,上下文学习有时有助于视频语言模型进行 SOP 生成。然后,我们提出了一种上下文集成学习,以进一步增强模型在 SOP 生成方面的能力。