摘要
arXiv:2502.00964v2 宣告类型: replace-cross
摘要: 在本报告中,我们介绍了ML-Dev-Bench,这是一个旨在测试在实际机器学习开发任务上代理能力的基准测试。虽然现有的基准测试主要关注单独的编码任务或Kaggle风格的比赛,但ML-Dev-Bench 测试了代理处理整个机器学习开发工作流的全部复杂性的能力。该基准测试评估了数据集处理、模型训练、改进现有模型、调试以及与流行ML工具集成等方面的关键性能。我们对三种代理——ReAct、Openhands 和 AIDE——进行了30项多样化的任务评估,提供了它们在处理实际机器学习开发挑战方面的强项和局限性的见解。