LLM2D
大型语言模型存在地理偏见
Large Language Models are Geographically Biased
作者: Rohin Manvi, Samar Khanna, Marshall Burke, David Lobell, Stefano Ermon
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2402.02680v2

摘要

大型语言模型 (LLM) 本身就包含着训练语料库中的偏见,这会导致社会危害的延续。随着这些基础模型的影响力不断增长,理解和评估它们的偏见对于实现公平性和准确性至关重要。我们建议通过地理视角来研究 LLM 对我们所处世界的认知。这种方法特别有效,因为人类生活的众多方面(如文化、种族、语言、政治和宗教)都以有意义的方式投射到地理空间中,而这些方面都有客观真实性。我们展示了各种有问题的地理偏见,我们将其定义为地理空间预测中的系统性错误。首先,我们证明 LLM 能够进行准确的零样本地理空间预测,形式为评分,这些评分与客观真实性(Spearman 的 $\rho$ 最高可达 0.89)显示出强烈的单调相关性。然后,我们展示了 LLM 在一系列客观和主观主题上表现出常见的偏见。特别是,LLM 在各种敏感的主观主题(如吸引力、道德和智力)上,明显地对社会经济状况较低的地区(例如非洲大部分地区)存在偏见(Spearman 的 $\rho$ 最高可达 0.70)。最后,我们引入了一个偏见评分来量化这种现象,并发现现有 LLM 的偏见程度存在显著差异。代码可在项目网站上获取:https://rohinmanvi.github.io/GeoLLM