LLM2D

摘要

arXiv:2406.09564v3 宣告类型: replace-cross 摘要：上下文多臂老虎机算法对于解决实际决策问题至关重要。在实践中，从不同领域收集上下文多臂老虎机的反馈可能涉及不同的成本。例如，从实验小鼠（作为源领域）和人类（作为目标领域）测量药物反应。不幸的是，当存在分布转移时，将来自源领域的上下文多臂老虎机算法适应到目标领域仍然是一个主要挑战，且未被充分探索。在本文中，我们提出了第一个用于上下文多臂老虎机的一般领域自适应方法。我们的方法通过从源领域收集反馈来学习目标领域的多臂老虎机模型。我们的理论分析表明，即使跨领域适应，我们的算法也能保持亚线性后悔界。实验证明，我们的方法在实际数据集上优于最新的上下文多臂老虎机算法。