LLM2D

摘要

大型生成语言模型和视觉语言模型（LLM和VLM）擅长于少量样本的上下文学习，用于决策和指令遵循。然而，它们需要在其上下文窗口中具有高质量的示例演示。这项工作探讨了：LLM和VLM能否从通用的、次优的演示中生成自己的示例？我们提出了上下文抽象学习（ICAL）方法，该方法从次优演示和人为反馈中构建多模态经验的记忆。给定可能包含低效或错误的任务演示，VLM通过纠正低效操作并注释认知抽象（因果关系、对象状态变化、时间子目标和与任务相关的视觉元素）将轨迹抽象成通用的思维程序。这些思维程序通过人为反馈迭代改进，同时智能体在类似环境中执行轨迹。生成的示例显著提高了增强检索的LLM和VLM智能体的决策能力。此外，随着智能体示例库的增长，它变得更高效，减少了对人为反馈的依赖，并且每个演示所需的交互环境更少。我们的ICAL智能体在TEACh的基于对话的指令遵循、VisualWebArena的多模态网络智能体以及Ego4D的动作预测方面超越了最先进水平。在TEACh中，我们实现了目标条件成功率12.6%的提升。在VisualWebArena中，我们的任务成功率超过了少量样本的GPT4V。在Ego4D动作预测中，我们优于少量样本的GPT-4V，并且与监督模型相比具有竞争力。我们展示了微调我们增强检索的上下文智能体可以带来额外的改进。我们的方法显著减少了对人工提示工程的依赖，并且始终优于缺乏此类思维程序的动作计划的上下文学习。