LLM2D

摘要

arXiv:2502.00964v1 评测类型: 横向评测摘要：在这份报告中，我们介绍了ML-Dev-Bench，这是一个旨在测试代理在实际机器学习开发任务方面能力的基准测试。虽然现有的基准主要集中在孤立的编码任务或Kaggle风格的竞赛上，ML-Dev-Bench则测试代理处理完整的机器学习开发工作流的复杂性的能力。该基准测试评估了代理在数据集处理、模型训练、改进现有模型、调试以及与流行机器学习工具集成等多个关键方面的表现。我们对三种代理——ReAct、Openhands和AIDE——进行了25项多样化的任务评估，提供了他们在处理实际机器学习开发挑战方面的强项和局限性的见解。