LLM2D
自动力强化学习:在开放-ended环境中探索技能获取的内在动机
Autotelic Reinforcement Learning: Exploring Intrinsic Motivations for Skill Acquisition in Open-Ended Environments
作者: Prakhar Srivastava, Jasmeet Singh
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04418v1

摘要

arXiv:2502.04418v1 类别: cross 摘要:本文提供了自主自发强化学习(RL)的全面概述,强调内在动机在开放性技能 repertoire 形成中的作用。我们明确了知识驱动型和能力驱动型内在动机的区别,解释了这些概念如何指导自主智能体的发展,使其能够自我定义并追求目标。研究了内在动机驱动的目标探索过程(IMGEPs)的类型学,重点探讨了其对多目标 RL 和发展型机器人技术的含义。将自主自发学习问题置于无奖励马尔可夫决策过程(MDP)的框架内,其中智能体必须自主地表示、生成和掌握自己的目标。本文讨论了评估此类智能体的独特挑战,提出了衡量探索、泛化和复杂环境中鲁棒性的各种指标。旨在推进对自主自发 RL 智能体及其在多样和动态环境中的技能获取潜力的理解。