LLM2D

摘要

arXiv:2502.13200v1 类别: cross 摘要: 自主人工代理必须能够在没有人类设计任务和奖励的情况下，在复杂环境中学习行为。为每个环境设计这些函数是不可行的，因此推动了开发内在奖励函数的发展。在本文中，我们提出利用长期以来被忽视的一些认知元素来构建具有内在动机代理的内部世界模型。我们的代理能够与环境进行满意的迭代，无需预先设计的奖励函数即可学习复杂的行为。我们使用了18个Atari游戏来评估在要求反应性和深思熟虑行为的游戏中的认知技能。结果显示，在许多密集奖励和稀疏奖励的测试案例中，我们的方法具有优越的性能。