LLM2D

摘要

arXiv:2410.14682v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）的近期进展激发了将这些技术应用于具身任务的种种尝试，特别是集中在高级任务计划和任务分解方面。为进一步探索这一领域，我们提出了一个新的具身任务规划基准——ET-Plan-Bench，专门用于使用LLMs进行具身任务规划。该基准包含了一个可控制且多样的具身任务集，任务在难度和复杂性方面有所不同，旨在评估LLMs在具身任务理解方面的两个关键维度：空间（空间关系限制、目标物体的遮挡）和时间及因果理解。通过使用多源模拟器作为后台模拟器，它可以为LLMs提供即时环境反馈，从而允许LLMs动态地与环境互动，并根据需要重新规划。我们在提出的基准上评估了最先进的开源和非开源基础模型，包括GPT-4、LLAMA和Mistral。虽然它们在简单的导航任务中表现良好，但在需要对空间、时间和因果关系有深刻理解的任务面前，其性能会显著下降。因此，我们的基准区别于一种大规模的、可量化、高度自动化的、具有精细粒度的诊断框架，对最新的基础模型构成了重大挑战。我们希望它能激发并推动基础模型在具身任务规划方面的进一步研究。