摘要
arXiv:2505.01015v1 声明类型: cross
摘要:由于需要更加真实和人类导向的响应,基准测试在评估语言模型的价值方面的重要性得到了强调。然而,现有的基准测试依赖于人类或机器注释,这些注释容易受到价值相关的偏差影响。此外,测试场景往往与模型在现实世界中生成文本和表达价值观时常用的场景相偏离。为了解决这些问题,我们提出了价值肖像基准,这是一个可靠的价值导向评估框架,具有两个关键特征。首先,该基准由捕捉现实生活中的用户-语言模型交互的项目组成,增强了评估结果与现实世界语言模型使用的相关性,从而提高生态效度。其次,每个项目都是根据其与个人思考的相似性由人类受试者进行评分,由此得出这些评分与受试者实际价值观得分之间的相关性。通过验证性的心理测量方法,确保与特定价值观高度相关的项目成为评估这些价值观的可靠项目。通过使用我们的基准测试评估27个语言模型,我们发现这些模型更注重仁慈、安全和个人导向的价值,而较少关注传统、权力和成就价值。此外,我们的分析揭示了语言模型在看待各种人口群体方面存在偏差,与真实人类数据有所偏离。