摘要
arXiv:2505.08361v1 Announce Type: 新
摘要:强化学习(RL)的一般化仍然是一个重大挑战,尤其是在代理遇到具有未见过的动力学的新环境时。从人类组合性推理中汲取灵感——其中已知组件被重新配置以应对新情况——我们引入了组合因果组件的世模框架(WM3C)。这一新颖框架通过学习和利用组合性因果组件来增强RL的一般化能力。与以往侧重于不变表示学习或元学习的方法不同,WM3C识别并利用组合元素之间的因果动力学,从而便于对新任务进行稳健的适应。我们的方法将语言作为组合方式来分解潜在空间,并在温和的假设下提供了独特识别的理论保证。我们的实际实现使用了带互信息约束和自适应稀疏正则化的掩码自编码器来捕获高级语义信息并有效地分离转换动力学。实验在数值仿真和实际的机器人操作任务上表明,WM3C在识别潜在过程、提高策略学习能力和应对未见过的任务方面显著优于现有方法。