摘要
大型生成语言模型和视觉语言模型(LLM和VLM)擅长于少量样本的上下文学习,用于决策和指令遵循。然而,它们需要在其上下文窗口中具有高质量的示例演示。这项工作探讨了:LLM和VLM能否从通用的、次优的演示中生成自己的示例?我们提出了上下文抽象学习(ICAL)方法,该方法从次优演示和人为反馈中构建多模态经验的记忆。给定可能包含低效或错误的任务演示,VLM通过纠正低效操作并注释认知抽象(因果关系、对象状态变化、时间子目标和与任务相关的视觉元素)将轨迹抽象成通用的思维程序。这些思维程序通过人为反馈迭代改进,同时智能体在类似环境中执行轨迹。生成的示例显著提高了增强检索的LLM和VLM智能体的决策能力。此外,随着智能体示例库的增长,它变得更高效,减少了对人为反馈的依赖,并且每个演示所需的交互环境更少。我们的ICAL智能体在TEACh的基于对话的指令遵循、VisualWebArena的多模态网络智能体以及Ego4D的动作预测方面超越了最先进水平。在TEACh中,我们实现了目标条件成功率12.6%的提升。在VisualWebArena中,我们的任务成功率超过了少量样本的GPT4V。在Ego4D动作预测中,我们优于少量样本的GPT-4V,并且与监督模型相比具有竞争力。我们展示了微调我们增强检索的上下文智能体可以带来额外的改进。我们的方法显著减少了对人工提示工程的依赖,并且始终优于缺乏此类思维程序的动作计划的上下文学习。