摘要
arXiv:2504.05108v2 宣告类型: 替换
摘要:发现解决复杂问题的高效算法一直是数学和计算机科学领域的突出挑战,多年来需要大量的专业知识。近年来,通过大规模语言模型(LLMs)进行进化搜索的进步在加速各种领域的算法发现方面展现了潜力,尤其是在数学和优化领域。然而,现有方法将LLM视为静态生成器,错过了利用进化探索中获得的信号来更新模型的机会。在本文中,我们提出了一种通过强化学习(RL)微调来不断优化搜索操作符——LLM——的方法,以增强基于LLM的进化搜索。我们的方法利用进化搜索作为探索策略来发现改进的算法,而RL根据这些发现优化LLM策略。我们在三个组合优化任务——装箱问题、旅行商问题和平板包装问题——上的实验表明,结合RL和进化搜索可以提高改进算法发现的效率,展示了增强强化学习的进化策略在协助计算机科学家和数学家进行更高效的算法设计方面的潜力。