摘要
受程序化广告优化启发,我们考虑了跨一组资源顺序分配预算的任务。在每个时间步,选择一个可行的分配,并且只观察到相应的随机回报。目标是最大化回报的累积期望总和。这是一种用于跨营销活动细分分配预算的现实模型,其目标是最大化转化次数。我们研究了在存在噪声的情况下,用于线性约束和无导数优化的直接搜索(也称为模式搜索)方法,这些方法特别适用于顺序预算分配。这些算法不依赖于资源空间的分层划分,易于实现;它们通过避免在可行域之外进行评估来尊重资源分配的操作约束;它们也与热启动兼容,因为它们是(近似)下降算法。然而,它们还没有从累积遗憾的角度进行分析。我们证明了直接搜索方法在确定性和无约束情况下实现了有限遗憾。在存在评估噪声和线性约束的情况下,我们提出了一种简单的直接搜索扩展,该扩展实现了 $T^{2/3}$ 阶的遗憾上限。我们还提出了一种加速版本的算法,它依赖于重复的顺序测试,显著改善了该方法的实际行为。