LLM2D

摘要

大规模生成式语言模型和视觉语言模型 (LLMs 和 VLMs) 在决策和指令遵循的少样本情境学习方面表现出色。然而，它们需要高质量的示例演示被包含在它们的上下文窗口中。在这项工作中，我们提出一个问题：LLMs 和 VLMs 能否从通用、次优的演示中生成自己的提示示例？我们提出了情境抽象学习 (ICAL)，一种从次优演示和人类反馈中构建多模态经验洞察记忆的方法。给定一个新领域中的嘈杂演示，VLMs 通过修复低效动作和注释认知抽象来将轨迹抽象成一个通用程序：任务关系、对象状态变化、时间子目标和任务理解。这些抽象通过人类反馈进行交互式细化和调整，同时代理尝试在类似的环境中执行轨迹。当这些抽象用作提示中的示例时，它们显著改善了检索增强型 LLM 和 VLM 代理的决策能力。我们的 ICAL 代理在 TEACh 的基于对话的指令遵循、VisualWebArena 的多模态网络代理和 Ego4D 的动作预测方面超越了最先进水平。在 TEACh 中，我们实现了 12.6% 的目标条件成功率提高。在 VisualWebArena 中，我们的任务成功率从 18.9% 提高到 23.4%，超过了最先进水平。在 Ego4D 动作预测中，我们优于少样本 GPT-4V，并与监督模型保持竞争力。我们证明了微调我们的检索增强型情境代理会带来额外的改进。我们的方法显著减少了对专家精心制作示例的依赖，并且始终优于缺乏此类洞察力的动作计划的情境学习。