LLM2D

摘要

arXiv:2504.07971v1 定性类型: cross 摘要：在大语言模型（LLMs）的时代，为多种多样的人-机器交互系统建立有效的评估方法和标准变得越来越具有挑战性。为了促进更加透明的文档记录，并促进关于人-机器系统评估设计选项的讨论，我们提出了一个评估卡片 SPHERE，它涵盖了五个关键维度：1）评估的是什么？；2）评估是如何进行的？；3）谁参与了评估？；4）评估在什么时候进行？；5）评估是如何验证的？我们使用 SPHERE 对 39 个人-机器系统进行了审查，概述了当前的评估实践和改进领域。我们提供了三项建议，以提高评估实践的有效性和严谨性。