摘要
在强化学习中,多臂老虎机(MAB)问题已在推荐系统、医疗保健和金融等多个领域得到应用。传统的多臂老虎机算法通常假设奖励分布是平稳的,这限制了它们在具有非平稳动态特性的现实场景中的有效性。本文通过引入和评估为非平稳环境设计的新的Bandit算法来解决这一限制。首先,我们提出了自适应折扣汤普森采样(ADTS)算法,该算法通过放松折扣和滑动窗口机制来增强适应性,从而更好地响应奖励分布的变化。然后,我们通过引入组合自适应折扣汤普森采样(CADTS)算法将这种方法扩展到投资组合优化问题,该算法解决了组合Bandit中的计算挑战并改进了动态资产配置。此外,我们提出了一种名为Bandit网络的新型架构,该架构集成了ADTS和CADTS的输出,从而减轻了股票选择中的计算限制。通过使用真实的金融市场数据进行大量实验,我们证明了这些算法和架构在适应动态环境和优化决策过程方面的潜力。例如,与经典的投资组合优化方法(如资本资产定价模型、等权重、风险平价和马科维茨模型)相比,所提出的Bandit网络实例表现出优越的性能,其中最佳网络的样本外夏普比率比性能最佳的经典模型高出20%。