摘要
arXiv:2504.05108v1 宣告类型: 新
摘要: 寻找解决复杂问题的有效算法一直是数学和计算机科学中的一个突出挑战,多年来这需要大量的专业知识。近年来,使用大规模语言模型(LLMs)进行进化搜索的进步显示了加速在各个领域发现算法的潜力,特别是在数学和优化领域。然而,现有的方法将LLM视为静态生成器,错过了根据进化探索获得的信号来更新模型的机会。在本文中,我们提出通过强化学习(RL)微调持续改进基于LLM的进化搜索的操作符——LLM。我们的方法利用进化搜索作为探索策略来发现改进的算法,而基于这些发现,RL优化LLM策略。我们在三个组合优化任务——背包问题、旅行商问题和平铺问题——上的实验表明,结合RL和进化搜索提高了改进算法发现的效率,展示了增强的RL进化策略在协助计算机科学家和数学家进行更高效的算法设计方面的潜力。