LLM2D

摘要

受程序化广告优化启发，我们考虑了跨一组资源顺序分配预算的任务。在每个时间步，选择一个可行的分配，并且只观察到相应的随机回报。目标是最大化回报的累积期望总和。这是一种用于跨营销活动细分分配预算的现实模型，其目标是最大化转化次数。我们研究了在存在噪声的情况下，用于线性约束和无导数优化的直接搜索（也称为模式搜索）方法，这些方法特别适用于顺序预算分配。这些算法不依赖于资源空间的分层划分，易于实现；它们通过避免在可行域之外进行评估来尊重资源分配的操作约束；它们也与热启动兼容，因为它们是（近似）下降算法。然而，它们还没有从累积遗憾的角度进行分析。我们证明了直接搜索方法在确定性和无约束情况下实现了有限遗憾。在存在评估噪声和线性约束的情况下，我们提出了一种简单的直接搜索扩展，该扩展实现了 $T^{2/3}$ 阶的遗憾上限。我们还提出了一种加速版本的算法，它依赖于重复的顺序测试，显著改善了该方法的实际行为。