LLM2D

摘要

为了使人工智能代理能够帮助人类，它们应该能够遵循自然语言指令，在人类环境中完成日常合作任务。然而，真实的人类指令天生具有模糊性，因为人类说话者假定他们对自己的隐藏目标和意图有足够的先验知识。标准的语言基础和规划方法无法解决这种模糊性，因为它们没有将人类内部目标建模为环境中额外的部分可观察因素。我们提出了一种新的框架，即“通过社会和具身推理遵循指令”(FISER)，旨在更好地在合作具身任务中遵循自然语言指令。我们的框架将对人类目标和意图的明确推断作为中间推理步骤。我们实现了一组基于 Transformer 的模型，并在一个具有挑战性的基准测试 HandMeThat 上对其进行了评估。我们通过实验证明，在制定行动计划之前使用社会推理来明确推断人类意图，优于纯粹的端到端方法。我们还将我们的实现与强大的基线进行了比较，包括在最大可用的预训练语言模型上进行的思维链提示，发现 FISER 在所研究的具身社会推理任务中提供了更好的性能，在 HandMeThat 上达到了最先进的水平。