LLM2D

摘要

arXiv:2505.04558v2 宣告类型: 替换-交叉摘要：在不同的规模和分布下实现神经方法在旅行商问题（TSP）上的泛化仍然是一个重大挑战。关键障碍在于神经网络往往无法学习到识别普遍模式并从多样性的实例中推导出最优解的稳健原则。在这篇论文中，我们首先发现了纯度定律（PuLa），这是一种关于最优TSP解的基本结构原则，定义为边的出现频率随着周围顶点稀疏性的增加而指数增长。PuLa在多样性的实例中得到了统计验证，揭示了全局最优解中对局部稀疏性的持续偏向。基于这一见解，我们提出了纯度策略优化（PUPO），这是一种新的训练范式，在解构建过程中明确地将神经解决方案的特点与PuLa对齐，以增强泛化能力。广泛的经验表明，PUPO可以无缝地与流行的神经求解器集成，显著提高它们的泛化性能，而不会在推断过程中增加额外的计算开销。