LLM2D

摘要

arXiv:2505.00612v1 指定类型: 新闻摘要: 在这篇立场声明中，我们观察到，生成型人工智能的实证评估正处于危机状态，因为传统机器学习的评估和基准测试策略不足以满足评估现代生成型人工智能模型和系统的需要。造成这种情况的原因有很多，包括这些模型通常具有几乎无界的输入和输出空间，通常没有明确的基准目标，并且通常在基于先前模型输出的上下文下表现出强烈的影响循环和预测依赖性。在这些关键问题之上，我们认为泄漏和污染问题是生成型人工智能评估中最为重要和困难的问题。有趣的是，人工智能竞赛领域已经开发出有效的方法和实践来防止泄漏，以对抗竞赛环境中不良行为者的作弊行为。这使得人工智能竞赛成为特别有价值的（但未充分利用的）资源。现在，是将人工智能竞赛视为生成型人工智能评估实证严谨性的金标准的时候了，并以相应的价值利用和收获其结果。