LLM2D

摘要

arXiv:2502.13497v1 生成类型：跨学科摘要：生成型大型语言模型（LLMs）在全球范围内被证明在多样的文化知识方面存在差距。我们研究了检索增强生成和搜索 grounding 技术对语言模型显示不同民族文化的熟悉程度的能力的影响。具体而言，我们比较了标准 LLMs、使用定制知识库增强检索（即 KB grounding）的 LLMs 和使用网络搜索增强检索（即搜索 grounding）的 LLMs 在一系列文化熟悉度基准测试上的性能。我们发现，对于测试命题知识（例如，国家文化的规范、器物和机构）的选择题基准测试，搜索 grounding 显著提高了 LLM 的性能，而 KB grounding 的效果受限于知识库覆盖不足和检索器的次优表现。然而，搜索 grounding 也会增加语言模型产生刻板印象判断的风险，而在具有充足统计能力的人类评价中，未能改善评估者对文化熟悉程度的判断。这些结果突出了在评估生成型 LLMs 的文化熟悉度时命题知识与开放性文化流畅度之间的区别。