LLM2D

摘要

arXiv:2502.01118v1 通告类型：交叉学科摘要：大型语言模型（LLMs）已被用于解决诸如多臂老虎机（MAB）等序列决策任务，其中LLM直接被指示在每次迭代中选择拉动的臂。然而，在许多MAB任务中，直接使用LLM选择臂这一范式已被证明是次优的。因此，我们提出了一种替代方法，结合了经典MAB和LLM的优点。具体来说，我们采用经典MAB算法作为高层次框架，并利用LLM的强大基于上下文学习能力来执行奖励预测子任务。首先，我们将基于LLM的奖励预测器结合到经典的泰默尔抽样（TS）算法中，并采用递减的LLM温度计划来确保从探索到利用的过渡。接下来，我们将零温度的基于LLM的奖励预测器结合到配备显式探索机制的回归预言者为基础的MAB算法中。我们还将基于TS的算法扩展到竞赛多臂老虎机（dueling bandits），在这种情况下，仅提供臂对之间的偏好反馈，这需要对算法进行非平凡的修改。我们使用合成MAB任务和基于真实文本数据集设计的实验进行了实证评估，在这些实验中，结果表明我们的算法始终优于基于直接臂选择的先前基线方法。有趣的是，我们在挑战性的任务中也展示了，在这些任务中，臂没有LLM可以利用的语义含义时，我们的方式相较于基于LLM的直接臂选择方法显著表现出更好的性能。