LLM2D

摘要

arXiv:2504.14039v1 类别: cross 摘要: 随着大型语言模型（LLMs）的发展，它们对社会的广泛影响潜力也在同步增长。因此，严格评估LLMs既是技术上的必要，也是社会上的要求。尽管已经开发了许多评估基准，但在元评估方面仍然存在一个关键缺口：有效地评估基准的质量。我们提出MEQA，一种用于问题和答案（QA）基准的元评估框架，以提供标准化评估、可量化评分并促进基准内部有意义的比较。我们在网络安全基准上展示了这种方法，使用了人类和LLM评估者，指出了这些基准的优点和缺点。我们通过AI模型作为强大防护工具和安全威胁的双重性质来说明选择测试领域的动机。