LLM2D

摘要

经典的主代理问题，例如 Stackelberg 博弈、合约设计和贝叶斯劝说，通常假设代理能够对委托人的既定策略做出最佳回应。我们研究了在委托人没有承诺能力且代理使用算法学习如何回应委托人的假设下的重复广义主代理问题。我们将此问题简化为一个单次广义主代理问题，其中代理近似地做出了最佳回应。利用这种简化，我们证明了：(1) 如果代理使用具有遗憾值 $\mathrm{Reg}(T)$ 的上下文无遗憾学习算法，则委托人可以保证效用至少为 $U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$，其中 $U^*$ 是经典模型中具有最佳回应代理的委托人的最优效用。(2) 如果代理使用具有交换遗憾值 $\mathrm{SReg}(T)$ 的上下文无交换遗憾学习算法，则委托人无法获得超过 $U^* + O(\frac{\mathrm{SReg(T)}}{T})$ 的效用。但是 (3) 如果代理使用基于均值的学习算法（可以是无遗憾的，但不是无交换遗憾的），则委托人有时可以做得比 $U^*$ 好得多。这些结果不仅完善了 Stackelberg 博弈和合约设计中的先前结果，而且也为具有学习代理的贝叶斯劝说以及代理没有私人信息的所有广义主代理问题带来了新的结果。