摘要
标准操作程序(SOP)基于视频演示,为业务软件工作流定义了一个低级的、逐步的书面指南。SOP 是实现端到端软件工作流自动化的关键步骤。手动创建 SOP 可能很耗时。大型视频语言模型的最新进展为通过分析人类演示的记录来自动生成 SOP 提供了可能性。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习以生成 SOP。我们报告说,上下文学习有时有助于视频语言模型生成 SOP。然后,我们提出了一种上下文集成学习,以进一步增强模型在 SOP 生成方面的能力。