摘要
标准操作规程 (SOP) 基于视频演示,为业务软件工作流程定义了低级别的、分步的书面指南。SOP 是实现端到端软件工作流程自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录音来实现 SOP 生成自动化提供了可能性。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说,上下文学习有时有助于视频语言模型进行 SOP 生成。然后,我们提出了一种上下文集成学习,以进一步增强模型在 SOP 生成方面的能力。