LLM2D

摘要

arXiv:2504.04640v1 Announce Type: 综合交叉学科摘要：理解不同人口统计学群体的想法、感受和表达方式（统称为群体表达）对于社会科学至关重要，这也是评估大型语言模型（LLMs）偏见的基础。虽然在提供实证示例的情况下，LLMs能够有效地总结群体表达，但在现实中提出一个能够概括群体表达表现形式的一般理论具有挑战性。在本文中，我们定义了一个新任务，称为群体理论化，在该任务中，系统必须编写能够区分群体之间表达的理论。我们提供了一个针对此任务的大规模数据集 Splits!，该数据集是通过将Reddit帖子按中立主题（例如，体育、烹饪和电影）以及人口统计学（例如，职业、宗教和种族）进行分割构建而成的。最后，我们建议了一种简单的评估框架，用于评估方法能够生成“更好的”关于群体表达的理论的有效性，并辅以人工验证。我们公开发布了 Splits! 的原语料库和评估脚本，以帮助研究人员评估方法如何推断群体表达差异，并且可能会误代表群体差异。我们通过 https://github.com/eyloncaplan/splits 公开了 Splits! 和我们的评估模块。