LLM2D

摘要

arXiv:2409.17755v2 宣告类型: replace-cross 摘要：本文探讨了一种具有挑战性的交互式任务学习场景，我们称之为未察觉下的重新排列：在一个代理不知晓对解决指定任务至关重要的概念的环境下，操控刚性体环境。我们提出了SECURE，一个旨在解决此类问题的交互式任务学习框架。它利用具身对话来修正其缺陷领域的模型——通过对话，代理发现并学习利用出乎意料的可能性。尤其是，SECURE 在它犯错时从用户的具身纠正反馈中学习，并在对话中做出战略决策，以揭示解决问题的新概念的有用证据。这些能力使代理能够在后续任务中利用新获得的知识进行泛化。我们证明，在代理具备语义意识的情况下——即在学习和推理过程中，它通过语义分析的逻辑后果扩充用户的具身对话中的证据——解决未察觉下的重新排列问题更加高效。