摘要
arXiv:2502.14131v1 宣传类型: cross
摘要: 我们研究了估计动态离散选择(DDC)模型的问题,也被称为机器学习中的离线最大熵正则化逆强化学习(offline MaxEnt-IRL)。目标是从离线行为数据中恢复支配代理行为的奖励或$Q^*$函数。在本文中,我们提出了一种全局收敛的基于梯度的方法,用于解决这些问题,而无需将奖励线性参数化的限制假设。我们方法的创新之处在于引入了基于经验风险最小化(ERM)的IRL/DDC框架,该框架避免了贝尔曼方程中显式状态转移概率的估计需求。此外,该方法与非参数估计技术(如神经网络)兼容。因此,所提出的方法有可能扩展到高维、无限状态空间。我们方法的基本理论洞察是贝尔曼残差满足Polyak-Lojasiewicz(PL)条件——虽然这一性质比强凸性要弱,但它足以确保快速全局收敛的保证。通过一系列合成实验,我们展示了我们的方法在基准方法和最先进的替代方法中的一贯优越性。