LLM2D

摘要

基础模型在我们的日常生活中越来越普遍，被用于日常任务，例如文本图像搜索、与聊天机器人的互动以及内容生成。随着使用量的增加，人们越来越担心这些模型在世界不同地区不同人群的性能和公平性方面的差异。为了评估这些不断增长的地区差异，我们推出了“世界各地美食”数据集，这是一个混合文本和图像数据集，包含 765 道菜，菜名以 131 种本地语言收集。 “世界各地美食”数据集完全通过人类贡献和去中心化方式收集，通过创建一个广泛分布在社交网络上的网站。利用该数据集，我们展示了一种将能力和表征偏差操作化的新方法，例如语言模型和文本到图像生成模型。我们通过一项试点社区评估丰富了这些研究，以从第一人称的角度了解这些模型如何为五个非洲国家和美国的人们生成图像。我们发现，这些模型通常不会生成特定于不同地区的菜肴的优质文本和图像输出。即使对于美国来说也是如此，美国通常被认为在训练数据方面资源更丰富——尽管美国菜肴的生成确实优于调查的非洲国家。这些模型表现出产生不准确以及文化上失真、扁平化和不敏感的输出的倾向。这些能力和表征偏差方面的失败有可能进一步强化刻板印象，并基于地区不成比例地导致抹杀。该数据集和代码可在 https://github.com/oxai/world-wide-dishes/ 获取。