摘要
arXiv:2501.13720v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)反映了其训练数据中的偏差,也反映了创造这些训练数据的人类的偏差。检测、分析和减轻这些偏差正成为研究的重点。到目前为止,研究中未充分探讨的一种偏差类型是地理文化偏差。这些偏差可能是由于训练数据中不同地理位置和文化的代表性失衡造成的,也可能是由于其中包含的价值判断造成的。在本文中,我们朝着分析LLMs中的音乐偏差迈出了第一步,特别是针对ChatGPT和Mixtral。我们进行了两项实验。在第一个实验中,我们促使LLMs提供各类别的“Top 100”音乐贡献者名单,并分析他们的国籍。在第二个实验中,我们要求LLMs对不同国家的音乐文化的各个方面进行数值评级。我们的结果表明,无论在哪个实验中,LLMs都非常偏好西方音乐文化。