LLM2D
基于视觉的强化学习的零样本泛化,无需数据增强
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation
作者: Sumeet Batra, Gaurav S. Sukhatme
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07441v1

摘要

将基于视觉的强化学习 (RL) 智能体泛化到新环境仍然是一个困难的开放性挑战。目前的趋势是收集大规模数据集或使用数据增强技术来防止过拟合并提高下游泛化能力。然而,随着任务变体的数量增加,计算和数据收集成本呈指数级增长,并且可能破坏训练 RL 智能体这一本来就困难的任务。在这项工作中,我们从计算神经科学的最新进展中汲取灵感,并提出了一种名为“关联潜在解耦 (ALDA)”的模型,该模型建立在标准的离策略 RL 之上,旨在实现零样本泛化。具体来说,我们重新审视了潜在解耦在 RL 中的作用,并展示了将它与关联记忆模型相结合如何在不依赖数据增强的条件下,在困难的任务变体上实现零样本泛化。最后,我们正式证明数据增强技术是一种弱解耦形式,并讨论了这一洞察力的意义。