摘要
arXiv:2504.12911v1 交叉类型:cross
摘要:大型语言模型(LLMs)所持的观点是否与您国家的价值观相冲突?有时确实存在这种情况!然而,现有的工作主要集中在伦理审查上,未能捕捉到国家价值观的多样性,国家价值观涵盖更广泛的政策、法律和道德考虑。此外,当前依赖手动设计问卷的光谱测试基准也不易于扩展。
为了应对这些局限性,我们引入了NaVAB,这是一个全面的基准,用于评估LLMs与五个主要国家价值观的对齐情况:中国、美国、英国、法国和德国。NaVAB 实现了一个国家价值提取管道,以高效地构建价值评估数据集。具体来说,我们提出了一种带有指令标记的建模程序来处理原始数据源,一个筛选过程来筛选与价值相关的话题,以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在多个国家的各种LLMs上进行了广泛的实验,结果提供了关于识别不匹配情况的见解。此外,我们展示了NaVAB可以与对齐技术相结合,通过使LLMs的价值与目标国家的价值相匹配,有效地减少价值顾虑。