LLM2D

摘要

arXiv:2502.05227v1 跨步类型：交叉摘要：有效的异步规划，或者能够高效地在必须并行或顺序发生的状态和行为上进行推断和规划的能力，对于需要考虑时间延迟、推理和处理多样性的长时任务，以及与其他代理合作的代理来说是至关重要的。虽然大型语言模型（LLM）代理在高层任务规划方面显示出潜力，但目前的基准测试主要集中在短时任务上，不评估此类异步规划能力。我们引入了Robotouille，一个具有挑战性的基准环境，旨在测试LLM代理处理长期异步场景的能力。我们的同步和异步数据集捕捉到越来越复杂且超越现有基准的规划挑战，要求代理管理重叠任务和中断。我们的结果表明，ReAct（gpt4-o）在同步任务中的得分为47%，但在异步任务中的得分为11%，突显了显著的改进空间。我们进一步分析了失败模式，展示了LLM代理需要更好地整合长期反馈，并在任务执行过程中自我审查其推理的必要性。代码可在 https://github.com/portal-cornell/robotouille 获取。