LLM2D

摘要

arXiv:2309.02711v2 宣告类型: replace-cross 摘要：对称性是理解我们周围环境的一个基本概念，但从数学角度来看，它往往过于简化了现实。人类是这一规则的典型例子，在外观和认知偏差（例如，左右手偏好）方面不完全对称。尽管如此，我们的大脑能够轻松克服这些缺陷，并有效地适应对称任务。本文的驱动力在于通过强化学习捕捉这种能力。为此，我们引入了自适应对称学习（ASL），这是一种模型最小化的行为-批评扩展，能够通过学习过程中的自我调整来解决不完整或不准确的对称性描述。ASL 包含一个对称适应组件和一个模块化损失函数，该损失函数在所有状态下强制执行一种共同的对称关系，同时适应学习到的策略。我们将 ASL 的性能与现有的一些增强对称性的方法在涉及四条腿蚂蚁模型的多向移动任务案例研究中进行了比较。结果表明，ASL 能够从大范围干扰中恢复，并将知识推广到隐藏的对称状态。在大多数场景中，ASL 达到了与替代方法相当甚至更好的性能，使其成为在利用模型对称性的同时弥补固有干扰的有价值的方法。