摘要
arXiv:2504.03024v1 类型: cross
摘要:在原生像素输入上训练的深度强化学习代理人常常无法超越其训练环境,依赖于虚假的相关性和无关的背景细节。为了解决这一问题,最近出现了以对象为中心的代理人。然而,它们需要针对具体任务定制的不同表示。与深度代理人不同,没有单一的对象中心架构可以应用于任何环境。受到认知科学原则和奥卡姆剃刀原理的启发,我们引入了对象中心注意力通过屏蔽(OCCAM),它选择性地保留与任务相关的事物,同时过滤掉无关的视觉信息。具体而言,OCCAM 利用了以对象为中心的归纳偏置。在 Atari 基准上的实验评估表明,OCCAM 显著提高了对新型扰动的鲁棒性,并减少了样本复杂性,同时显示与传统基于像素的强化学习相当或更好的性能。这些结果表明,结构化抽象可以在不需要显式符号表示或特定领域对象提取流水线的情况下增强泛化能力。