LLM2D

摘要

arXiv:2409.03811v2 宣告类型: 交叉替换摘要：涉及多个代理的组合优化问题因其NP难性质和有效的代理协调需求而极为复杂。尽管在基于学习的方法方面取得了进展，但现有方法往往面临关键限制，包括亚优代理协调、较差的一般化能力和高计算延迟。为了解决这些问题，我们提出了Parallel AutoRegressive Combinatorial Optimization（PARCO），这是一种强化学习框架，旨在高效地为多代理组合任务构建高质量的解决方案。为此，PARCO集成了三个关键组件：（1）基于变压器的通信层，以便在并行解决方案构建期间实现有效的代理协作；（2）多指针机制，实现低延迟并行代理决策；（3）基于优先级的冲突处理器，通过学习到的优先级解决决策冲突。我们在多代理车辆路由和调度问题上评估了PARCO，结果显示我们的方法在性能上优于最先进的学习方法，展示了强大的一般化能力和显著的计算效率。代码可用于此链接：https://github.com/ai4co/parco。