摘要
arXiv:2502.13497v1 生成类型:跨学科
摘要:生成型大型语言模型(LLMs)在全球范围内被证明在多样的文化知识方面存在差距。我们研究了检索增强生成和搜索 grounding 技术对语言模型显示不同民族文化的熟悉程度的能力的影响。具体而言,我们比较了标准 LLMs、使用定制知识库增强检索(即 KB grounding)的 LLMs 和使用网络搜索增强检索(即搜索 grounding)的 LLMs 在一系列文化熟悉度基准测试上的性能。我们发现,对于测试命题知识(例如,国家文化的规范、器物和机构)的选择题基准测试,搜索 grounding 显著提高了 LLM 的性能,而 KB grounding 的效果受限于知识库覆盖不足和检索器的次优表现。然而,搜索 grounding 也会增加语言模型产生刻板印象判断的风险,而在具有充足统计能力的人类评价中,未能改善评估者对文化熟悉程度的判断。这些结果突出了在评估生成型 LLMs 的文化熟悉度时命题知识与开放性文化流畅度之间的区别。