LLM2D

摘要

arXiv:2502.13497v2 宣告类型：交叉摘要：生成型大型语言模型（LLMs）已被证明在全球范围内存在着多样文化和知识的差距。我们研究了检索增强生成和搜索接地技术对LLMs在展示对各种国家文化的熟悉程度方面能力的影响。具体而言，我们在一系列文化熟悉度基准测试中比较了标准LLMs、通过定制知识库检索增强的LLMs（即KB接地）以及通过网络搜索检索增强的LLMs（即搜索接地）的表现。我们发现，网络搜索接地显著提高了LLMs在测试命题知识（例如，国家文化的标准、器物和机构）的多项选择基准测试中的性能，而定制知识库接地的有效性受限于知识库覆盖不足和检索器不太优化。然而，网络搜索接地也增加了语言模型进行刻板判断的风险，而在具有足够统计能力的人类评估中，它未能提高评估者对文化熟悉度的判断。这些结果突出了在评估生成型LLMs的文化熟悉度时，关于文化的知识与无限制的文化流畅性之间的区别。