LLM2D
“厚评价”在AI中对文化再现的评估论纲
The Case for "Thick Evaluations" of Cultural Representation in AI
作者: Rida Qadri, Mark Diaz, Ding Wang, Michael Madaio
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19075v1

摘要

arXiv:2503.19075v1 交叉公告类型:cross 摘要:生成式AI图像模型越来越多地被评估其(不)能够表现非西方文化的能力。我们认为,这些评估依赖于一种简化的表现理想,脱离了人们对自己表现的定义,并忽视了文化表现内在的解释性和情境性。与此类“薄”评估相对,我们提出了“厚”评估的概念:一种更加细腻、情境化和讨论性的评估框架,用于评估AI图像中社会世界的表征,基于社区对自己的表现的理解。我们通过在南亚的工作坊中开发这一评估框架,通过对人们如何解释和赋予自己文化图像意义的“厚”方法进行研究而形成。我们介绍了厚评估的表现实践,扩展了支撑AI评估的理解,并通过与社区共同构建衡量标准,使测量与地面上社区的经验保持一致。