摘要
arXiv:2502.14499v1 Announce Type: cross
摘要:我们介绍了Meta MLGym和MLGym-Bench,这是一种新的框架和基准,用于评估和开发在AI研究任务上工作的LLM代理。这是第一个用于机器学习(ML)任务的Gym环境,使研究能够针对训练此类代理的强化学习(RL)算法进行研究。MLGym-Bench包括来自计算机视觉、自然语言处理、强化学习和博弈论等多个领域共计13项多样且开放的AI研究任务。解决这些任务需要实际的AI研究技能,如生成新想法和假设、创建和处理数据、实现ML方法、训练模型、运行实验、分析结果以及通过此过程迭代以改进给定任务。我们使用了诸如Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview和Gemini-1.5 Pro等前沿大型语言模型(LLMs)上的基准测试。我们的MLGym框架使得添加新任务、集成和评估模型或代理、大规模生成合成数据以及为在AI研究任务上训练代理开发新的学习算法变得容易。我们发现当前的前沿模型通常可以通过找到更好的超参数来改进给定的基线,但并未产生新的假设、算法、架构或重大改进。我们将我们的框架和基准开源,以便促进未来研究,以提高LLM代理的AI研究能力。