LLM2D

摘要

arXiv:2504.15812v1 类型: cross 摘要: 本文探讨了在每次决策轮次收集绝对（奖励）反馈和相对（对弈）反馈的随机臂问题中这两种反馈类型的融合。我们推导出一个遗憾下界，证明有效的算法对于每种单个臂只能承受两者中较小的遗憾。我们提出了两种融合方法：(1) 一种基于消除的融合算法，它利用两种反馈类型来探索所有臂，并通过共享一个候选臂集合来统一收集到的信息；(2) 一种分解融合算法，它根据哪种反馈更有效来探索相应的臂，并且在每一轮中随机为探索分配一种反馈类型，为利用分配另一种反馈类型。由于消除融合方法中对弈消除的固有次优性，它在遗憾中经历了候选臂数量的次优乘性项。相比之下，在共同假设下，分解融合算法达到了遗憾下界的常数倍。大量的实验证明了我们算法和理论结果的有效性。