LLM2D

摘要

arXiv:2312.16896v2 宣告类型: replace-cross 摘要: 我们研究了当代理人战略性地注册或复制自己的选项以最大化其收益时，如何设计复制抗性的多臂博弈机制的问题。具体来说，我们考虑的是只会知道自己的选项的平均奖励是从何种分布中采样的贝叶斯代理人，与 Shin 等人 2022 年的原始设置不同。有趣的是，与之前的文献相比，在单代理人的设置下，分析算法的复制抗性变得显著复杂。我们为单代理人设置提供了算法复制抗性的充分必要条件，并提出了一种满足这些性质的算法。这些结果围绕一些关注于 \emph{比较多个多臂博弈实例的预期懊悔} 的分析定理展开，因此由于它们在此之前一直未被研究，所以它们可能具有独立的研究价值。我们把这个结果扩展到多代理人设置，并为任何问题实例提供了一种复制抗性的算法。我们通过证明该算法具有亚线性的懊悔上界来最终完成结果，并且该上界与 Shin 等人 2022 年的结果相匹配。