LLM2D

摘要

arXiv:2407.10207v3 宣布类型: replace-cross 摘要：设计适应性人群的激励机制是广泛应用于各种经济应用乃至更广泛领域的普遍问题。在本文中，我们研究如何在没有先验了解代理学习动态的情况下，设计额外的奖励来引导多智能体系统向期望的策略演变。受现有研究工作限制的启发，我们考虑了一种新的、更一般的学习动态类别，称为 \emph{马尔可夫代理}。我们为我们的引导问题引入了一种基于模型的非时期性强化学习（RL）形式化方法。重要的是，我们专注于学习一种 \emph{历史依赖性}的引导策略，以应对代理学习动态的固有模型不确定性。我们引入了一个新的目标函数，以编码实现良好引导结果的期望，同时控制成本。理论上，我们确定了引导策略存在的条件，可以引导代理达到期望的策略。为了补充我们的理论贡献，我们提供了近似的算法来解决我们的目标，这些算法能够有效地应对学习历史依赖性策略的挑战。通过实证评估，我们证明了我们算法的有效性。