LLM2D

摘要

标准操作流程 (SOP) 基于视频演示，为业务软件工作流定义了一个低级、逐步的书面指南。SOP 是实现端到端软件工作流自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录制内容来实现 SOP 生成自动化提供了可能。然而，当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说，上下文学习有时有助于视频语言模型进行 SOP 生成。然后，我们提出了一种上下文集成学习方法，以进一步增强模型在 SOP 生成方面的能力。