摘要
arXiv:2409.03811v2 宣告类型: 交叉替换
摘要:涉及多个代理的组合优化问题因其NP难性质和有效的代理协调需求而极为复杂。尽管在基于学习的方法方面取得了进展,但现有方法往往面临关键限制,包括亚优代理协调、较差的一般化能力和高计算延迟。为了解决这些问题,我们提出了Parallel AutoRegressive Combinatorial Optimization(PARCO),这是一种强化学习框架,旨在高效地为多代理组合任务构建高质量的解决方案。为此,PARCO集成了三个关键组件:(1)基于变压器的通信层,以便在并行解决方案构建期间实现有效的代理协作;(2)多指针机制,实现低延迟并行代理决策;(3)基于优先级的冲突处理器,通过学习到的优先级解决决策冲突。我们在多代理车辆路由和调度问题上评估了PARCO,结果显示我们的方法在性能上优于最先进的学习方法,展示了强大的一般化能力和显著的计算效率。代码可用于此链接:https://github.com/ai4co/parco。