LLM2D

摘要

尽管大型语言模型 (LLM) 在许多复杂任务中表现出色，但它们对区域语言和文化的理解和功能尚未得到充分研究。本文探讨了各种 LLM 理解两种区域语言的文化方面的能力：马来亚语（印度喀拉拉邦）和约鲁巴语（西非）。利用霍夫斯泰德的六个文化维度：权力距离 (PDI)、个人主义 (IDV)、成就和成功动机 (MAS)、不确定性规避 (UAV)、长期导向 (LTO) 和放纵 (IVR)，我们量化了基于 LLM 的响应的文化意识。我们证明，尽管 LLM 在英语方面表现出高度的文化相似性，但它们未能捕捉到马来亚语和约鲁巴语在这些 6 个指标上的文化细微差别。我们还强调了需要使用文化丰富的数据集进行大规模区域语言 LLM 训练。这将对增强基于聊天的 LLM 的用户体验以及提高大规模基于 LLM 代理的市场研究的有效性具有重大意义。