LLM2D

摘要

arXiv:2407.17112v2 通知类型: replace-cross 摘要：上下文对决多臂老虎机用于建模多臂老虎机问题，其中学习者的目的是通过过去上下文选取的臂产生的有噪声的人类偏好反馈来找到给定上下文的最佳臂。然而，现有的算法假设奖励函数是线性的，这在许多现实生活中应用中（如在线推荐或排序网络搜索结果）可能是复杂且非线性的。为克服这一挑战，我们使用神经网络来利用过去选取臂的偏好反馈来估计奖励函数。我们提出了基于上置信边界的算法和坎普琳抽样算法，并且这些算法在每一轮中高效地选择臂，并且具有亚线性遗憾保证。我们还将我们的理论结果扩展到了二元反馈的上下文多臂老虎机问题中，这本身是一项非平凡的贡献。从合成数据集派生的问题实例的实验结果验证了我们的理论结果。