LLM2D

摘要

arXiv:2502.12798v1 声明类型：交叉摘要：探索与利用权衡在推荐系统（RSs）中发挥着关键作用，旨在通过学习以往的交互来更好地服务于用户。尽管在商业上取得了成功，但探索与利用机制的社会影响尚未得到充分理解，尤其是在它们在不同用户之间产生的利益差异方面。在这项工作中，我们使用经济学中的嫉妒概念来衡量这种差异。我们引入了一个类似于多臂bandit的模型，每轮包含多个会话，并且奖励在每轮结束后实现。我们称后者为奖励一致性，并表明推荐系统可以利用这一属性以实现更好的社会结果。不过，这样做也会引起嫉妒，因为后来到达的用户享受了先期到达的用户的搜集到的信息。我们探讨了在多种到达顺序机制和任何匿名算法下生成的嫉妒，即任何不凭借用户身份而平等对待所有类似用户的算法。我们在均匀到达的情况下提供了嫉妒的紧界，并对推拉到达的情况进行了上界估计，在推拉到达的情况下，推荐系统可以通过诱导其用户的行为来影响到达顺序。此外，我们通过设计一个允许恒定嫉妒并近似最优福利的算法来研究效率与公平性的权衡。最后，我们通过仿真实验验证了我们的理论结果。