LLM2D

摘要

arXiv:2503.19075v1 交叉公告类型：cross 摘要：生成式AI图像模型越来越多地被评估其（不）能够表现非西方文化的能力。我们认为，这些评估依赖于一种简化的表现理想，脱离了人们对自己表现的定义，并忽视了文化表现内在的解释性和情境性。与此类“薄”评估相对，我们提出了“厚”评估的概念：一种更加细腻、情境化和讨论性的评估框架，用于评估AI图像中社会世界的表征，基于社区对自己的表现的理解。我们通过在南亚的工作坊中开发这一评估框架，通过对人们如何解释和赋予自己文化图像意义的“厚”方法进行研究而形成。我们介绍了厚评估的表现实践，扩展了支撑AI评估的理解，并通过与社区共同构建衡量标准，使测量与地面上社区的经验保持一致。