LLM2D

摘要

arXiv:2502.15620v1 评价类型: 新摘要：AI评估领域的研究越来越复杂且多学科，吸引了具有不同背景和目标的研究人员。因此，不同的评估范式随之出现，这些范式往往孤立发展，采用了相互冲突的术语，并忽视了彼此的贡献。这种碎片化导致了研究轨迹的孤立化以及不同范式之间和与公众之间的沟通障碍，从而对部署的AI系统产生了不切实际的期望。为了帮助弥合这一孤立性，在本文中，我们回顾了AI评估领域的近期工作，并识别出六大主要范式。我们在每个范式的关键维度上，包括其目标、方法论和研究文化，概述了主要的近期贡献。通过明确每个范式独特的研究问题和方法，我们旨在提高对当前评估方法多样性的认识，并促进不同范式之间的相互交流。我们还识别出领域的潜在空白，以激发未来的研究方向。