摘要
arXiv:2504.04310v1 交叉公告类型
摘要:尽管基于LLM的代理在软件工程和机器学习研究等领域引起了广泛关注,但它们在推进组合优化(CO)方面的作用仍然相对未被充分探索。这一差距突显出对其在解决结构化和约束密集型问题方面的潜力需要更深入的理解——目前这种理解受限于系统的调查中缺乏全面的基准测试。为了解决这一问题,我们引入了CO-Bench,这是一个基准套件,包含来自广泛领域和复杂度级别的36个真实世界的CO问题。CO-Bench 包含结构化问题表述和精心挑选的数据,以支持对LLM代理进行严格的调查。我们评估了多个代理框架与现有的人类设计算法的表现,揭示了当前方法的关键优势和局限性,并确定了未来研究的有希望的方向。CO-Bench 已在 https://github.com/sunnweiwei/CO-Bench 公开提供。