摘要
arXiv:2505.08253v1 新型通知类型:新
摘要:随着生成型AI越来越多地嵌入日常工作流程中,评估其性能的方式也应反映真实世界的应用而非抽象的智力概念变得尤为重要。与许多现有的侧重一般智力评估的标准不同,我们的方法专注于实际应用价值,评估模型如何在日常任务中支持用户。尽管目前的标准侧重于代码生成或事实回忆,但用户依赖AI进行的活动范围要广泛得多,包括写作辅助、总结、引文格式化、风格反馈等。在本文中,我们分析大规模调查数据和使用日志,以确定六种核心能力,代表人们如何常用大型语言模型(LLMs):总结、技术辅助、工作审查、数据结构化、生成和信息检索。然后,我们评估现有标准在这些能力上的覆盖面,揭示了在覆盖范围、效率测量和可解释性方面存在显著不足。基于这一分析,我们使用以人为中心的标准来识别现有标准在哪些方面未能准确反映实际应用,这种应用是基于五个实用标准:连贯性、准确性、清晰度、相关性和效率。对于六种能力中的四种,我们确定了与实际任务最匹配的标准,并使用它们来比较领先的模型。我们发现,Google Gemini 在这些注重实用性的指标上优于其他模型,包括OpenAI的GPT、xAI的Grok、Meta的LLaMA、Anthropic的Claude、DeepSeek以及来自阿里巴巴的Qwen。