LLM2D
基于上下文的集成方法提升了视频-语言模型在低级工作流理解方面的能力,该模型通过人类演示进行学习。
In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
作者: Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2409.15867v4

摘要

标准操作流程 (SOP) 基于视频演示,为业务软件工作流定义了一个低级、逐步的书面指南。SOP 是实现端到端软件工作流自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录制内容来实现 SOP 生成自动化提供了可能。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说,上下文学习有时有助于视频语言模型进行 SOP 生成。然后,我们提出了一种上下文集成学习方法,以进一步增强模型在 SOP 生成方面的能力。