LLM2D

摘要

由于难以获取大量真实世界数据，机器人模拟已成为并行训练和模拟到现实迁移的关键，突出了可扩展的模拟机器人任务的重要性。基础模型在自主生成可行的机器人任务方面展现出令人印象深刻的能力。然而，这种新的范式强调了对这些自主生成的任务进行充分评估的挑战。为了解决这个问题，我们提出了一种针对生成式模拟的综合评估框架。我们的框架将评估分为三个核心方面：质量、多样性和泛化能力。对于单任务质量，我们使用大型语言模型和视觉语言模型来评估生成任务的真实性和生成轨迹的完整性。在多样性方面，我们通过任务描述的文本相似度和基于收集的任务轨迹训练的世界模型损失来衡量任务多样性和数据多样性。对于任务级泛化，我们评估了用多个生成任务训练的策略在未见任务上的零样本泛化能力。在三个代表性任务生成管道上进行的实验表明，我们框架的结果与人工评估高度一致，证实了我们方法的可行性和有效性。研究结果表明，虽然某些方法可以实现质量和多样性指标，但没有一种方法在所有指标上都表现出色，这表明需要更加关注平衡这些不同指标。此外，我们的分析进一步突出了当前工作面临的泛化能力低下的共同挑战。我们的匿名网站：https://sites.google.com/view/evaltasks。