摘要
上下文多臂老虎机算法对于解决现实世界中的决策问题至关重要。在实践中,从不同领域收集上下文多臂老虎机的反馈可能涉及不同的成本。例如,测量小鼠(作为源域)和人类(作为目标域)对药物的反应。不幸的是,将上下文多臂老虎机算法从源域适应到具有分布偏移的目标域仍然是一个重大挑战,并且在很大程度上尚未得到探索。在本文中,我们介绍了第一个用于上下文多臂老虎机的通用领域自适应方法。我们的方法通过收集来自源域的反馈来学习目标域的bandit模型。我们的理论分析表明,即使跨域适应,我们的算法也能保持亚线性遗憾界限。实证结果表明,我们的方法在真实世界数据集上优于最先进的上下文多臂老虎机算法。