LLM2D

摘要

arXiv:2502.05352v1 通知类型: 新摘要: 实现使用AI代理来自动化关键IT任务的愿景取决于能够衡量和理解所提出解决方案有效性的能力。我们介绍了ITBench，一个框架，提供了一种系统的方法来评估AI代理以应对真正的IT自动化任务。我们最初发布的版本针对三个关键领域： sites可靠性工程（SRE）、合规与安全运营（CISO）以及财务运营（FinOps）。该设计使AI研究人员能够通过一键式工作流程和可解释的指标来了解AI代理在IT自动化中的挑战和机遇。ITBench 包含一组初始的94个真实场景，可以通过社区贡献轻松扩展。我们的结果显示，基于最新模型的代理仅能解决13.8%的SRE场景、25.2%的CISO场景以及0%的FinOps场景。我们希望ITBench 能够成为AI驱动的IT自动化的关键促成因素，使其正确、安全且快速。