LLM2D
ICAL:通过将轨迹转换为可操作的见解来实现多模态智能体的持续学习
ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
作者: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2406.14596v2

摘要

大规模生成式语言模型和视觉语言模型 (LLMs 和 VLMs) 在决策和指令遵循的少样本情境学习方面表现出色。然而,它们需要高质量的示例演示被包含在它们的上下文窗口中。在这项工作中,我们提出一个问题:LLMs 和 VLMs 能否从通用、次优的演示中生成自己的提示示例?我们提出了情境抽象学习 (ICAL),一种从次优演示和人类反馈中构建多模态经验洞察记忆的方法。给定一个新领域中的嘈杂演示,VLMs 通过修复低效动作和注释认知抽象来将轨迹抽象成一个通用程序:任务关系、对象状态变化、时间子目标和任务理解。这些抽象通过人类反馈进行交互式细化和调整,同时代理尝试在类似的环境中执行轨迹。当这些抽象用作提示中的示例时,它们显著改善了检索增强型 LLM 和 VLM 代理的决策能力。我们的 ICAL 代理在 TEACh 的基于对话的指令遵循、VisualWebArena 的多模态网络代理和 Ego4D 的动作预测方面超越了最先进水平。在 TEACh 中,我们实现了 12.6% 的目标条件成功率提高。在 VisualWebArena 中,我们的任务成功率从 18.9% 提高到 23.4%,超过了最先进水平。在 Ego4D 动作预测中,我们优于少样本 GPT-4V,并与监督模型保持竞争力。我们证明了微调我们的检索增强型情境代理会带来额外的改进。我们的方法显著减少了对专家精心制作示例的依赖,并且始终优于缺乏此类洞察力的动作计划的情境学习。