摘要
arXiv:2409.17755v2 宣告类型: replace-cross
摘要:本文探讨了一种具有挑战性的交互式任务学习场景,我们称之为未察觉下的重新排列:在一个代理不知晓对解决指定任务至关重要的概念的环境下,操控刚性体环境。我们提出了SECURE,一个旨在解决此类问题的交互式任务学习框架。它利用具身对话来修正其缺陷领域的模型——通过对话,代理发现并学习利用出乎意料的可能性。尤其是,SECURE 在它犯错时从用户的具身纠正反馈中学习,并在对话中做出战略决策,以揭示解决问题的新概念的有用证据。这些能力使代理能够在后续任务中利用新获得的知识进行泛化。我们证明,在代理具备语义意识的情况下——即在学习和推理过程中,它通过语义分析的逻辑后果扩充用户的具身对话中的证据——解决未察觉下的重新排列问题更加高效。