LLM2D

摘要

arXiv:2504.20183v1 交叉公告类型摘要：大型语言模型（LLMs）在自动化算法发现（AAD）中的应用，特别是用于优化启发式方法，是一个正在兴起的研究领域。这一兴起促使人们需要制定稳健的标准基准测试实践，以严格评估LLM驱动的AAD方法及其生成算法的能力和局限性，尤其是考虑到它们设计过程的不透明性以及现有基准存在的问题。为了解决这一需求，我们引入了BLADE（LLM驱动的自动化设计和演化标准基准套件），这是一个模块化和可扩展的框架，专门设计用于在连续的黑盒优化背景下基准测试LLM驱动的AAD方法。BLADE集成了各种基准问题的集合（包括MA-BBOB和SBOX-COST等），以及其他实例生成器和文本描述，旨在进行能力导向的测试，如泛化、专业化和信息利用。它提供了灵活的实验设置选项、标准化的日志记录以确保可重复性和公平比较、集成分析AAD过程的方法（例如代码进化图和各种可视化方法），并通过与IOHanalyser和IOHexplainer等现有工具的集成来促进与人类设计的基线的比较。BLADE提供了一种“开箱即用”的解决方案，以系统地评估LLM驱动的AAD方法。该框架通过探索突变提示策略和功能专业化等两种不同的使用案例来展示其应用。