摘要
arXiv:2504.07971v1 定性类型: cross
摘要:在大语言模型(LLMs)的时代,为多种多样的人-机器交互系统建立有效的评估方法和标准变得越来越具有挑战性。为了促进更加透明的文档记录,并促进关于人-机器系统评估设计选项的讨论,我们提出了一个评估卡片 SPHERE,它涵盖了五个关键维度:1)评估的是什么?;2)评估是如何进行的?;3)谁参与了评估?;4)评估在什么时候进行?;5)评估是如何验证的?我们使用 SPHERE 对 39 个人-机器系统进行了审查,概述了当前的评估实践和改进领域。我们提供了三项建议,以提高评估实践的有效性和严谨性。