LLM2D
大型语言模型增强的多臂 bandits
Large Language Model-Enhanced Multi-Armed Bandits
作者: Jiahang Sun, Zhiyong Wang, Runhan Yang, Chenjun Xiao, John C. S. Lui, Zhongxiang Dai
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01118v1

摘要

arXiv:2502.01118v1 通告类型:交叉学科 摘要:大型语言模型(LLMs)已被用于解决诸如多臂老虎机(MAB)等序列决策任务,其中LLM直接被指示在每次迭代中选择拉动的臂。然而,在许多MAB任务中,直接使用LLM选择臂这一范式已被证明是次优的。因此,我们提出了一种替代方法,结合了经典MAB和LLM的优点。具体来说,我们采用经典MAB算法作为高层次框架,并利用LLM的强大基于上下文学习能力来执行奖励预测子任务。首先,我们将基于LLM的奖励预测器结合到经典的泰默尔抽样(TS)算法中,并采用递减的LLM温度计划来确保从探索到利用的过渡。接下来,我们将零温度的基于LLM的奖励预测器结合到配备显式探索机制的回归预言者为基础的MAB算法中。我们还将基于TS的算法扩展到竞赛多臂老虎机(dueling bandits),在这种情况下,仅提供臂对之间的偏好反馈,这需要对算法进行非平凡的修改。我们使用合成MAB任务和基于真实文本数据集设计的实验进行了实证评估,在这些实验中,结果表明我们的算法始终优于基于直接臂选择的先前基线方法。有趣的是,我们在挑战性的任务中也展示了,在这些任务中,臂没有LLM可以利用的语义含义时,我们的方式相较于基于LLM的直接臂选择方法显著表现出更好的性能。