LLM2D

摘要

arXiv:2502.13138v1 通知类型: 新摘要: 作为现代人工智能的基础，机器学习驱动了从根本上改变世界的创新。然而，在这些进步的背后，隐藏着一个复杂且常常耗时的过程，需要大量的劳动和计算密集型的迭代和实验。开发机器学习模型的工程师和科学家们花费大量时间在试错任务上，而不是构思创新的解决方案或研究假说。为了解决这一挑战，我们引入了AI驱动探索（AIDE），这是一种由大规模语言模型（LLMs）驱动的机器学习工程代理。AIDE将机器学习工程视为一种代码优化问题，并将试错视为在潜在解决方案空间中的树搜索。通过战略重用和改进前景看好的解决方案，AIDE有效地用计算资源换取了性能的提升，我们在包括我们的Kaggle评估、OpenAI MLE-Bench和METRS RE-Bench等多个机器学习工程基准测试中取得了最先进的结果。