LLM2D

摘要

组合优化对于许多现实世界应用至关重要，但由于其 (NP-) 难解的性质，仍然存在挑战。在现有方法中，启发式方法通常在质量和可扩展性之间提供了最佳折衷方案，使其适合工业应用。虽然强化学习 (RL) 为设计启发式方法提供了一个灵活的框架，但它在工业求解器中对手工启发式方法的采用仍然不完整。现有的学习方法仍然缺乏适应特定实例和充分利用可用计算预算的能力。目前最好的方法要么依赖于一组预先训练的策略，要么依赖于数据效率低的微调；因此未能充分利用预算约束内新获得的信息。为了应对这一挑战，我们提出了 MEMENTO，一种利用记忆来改进神经求解器在推理时的适应能力的方法。MEMENTO 能够根据先前决策的结果动态更新动作分布。我们在基准问题（特别是旅行推销员和带容量的车辆路径）上验证了其有效性，证明了它优于树搜索和策略梯度微调；并表明它可以与基于多样性的求解器零样本组合。我们成功地在大规模实例上训练了所有 RL 自回归求解器，并表明 MEMENTO 可以扩展且数据效率高。总体而言，MEMENTO 能够在 12 个评估任务中的 11 个任务上推动最先进水平。