LLM2D
多国价值对齐benchmarking大型语言模型
Benchmarking Multi-National Value Alignment for Large Language Models
作者: Weijie Shi, Chengyi Ju, Chengzhong Liu, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jia Zhu, Jiajie Xu, Yaodong Yang, Sirui Han, Yike Guo
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.12911v2

摘要

arXiv:2504.12911v2 宣告类型:替换交叉 摘要:大型语言模型(LLMs)是否持有与您国家价值观相冲突的立场?有时确实如此!然而,现有的工作主要集中在道德审查上,未能捕捉到国家价值观的多样性,这涵盖了更广泛的政策、法律和道德考虑。此外,当前依赖于手动设计问卷的频谱测试基准也不容易扩展。 为应对这些限制,我们引入了NaVAB,这是一个全面的基准,用于评估LLMs与五个主要国家的价值观:中国、美国、英国、法国和德国的契合度。NaVAB 实施了一个国家价值观提取管道,以高效地构建价值评估数据集。具体来说,我们提出了一个带有指令标记的建模程序来处理原始数据源,一个筛选过程来过滤价值相关主题,以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在不同国家的各种LLMs上进行了广泛的实验,结果提供了在识别失配情景方面的一些见解。此外,我们展示了NaVAB可以与对齐技术结合起来,通过将LLMs的价值与目标国家对齐来有效减少价值关切。