LLM2D

摘要

arXiv:2504.12911v1 交叉类型：cross 摘要：大型语言模型（LLMs）所持的观点是否与您国家的价值观相冲突？有时确实存在这种情况！然而，现有的工作主要集中在伦理审查上，未能捕捉到国家价值观的多样性，国家价值观涵盖更广泛的政策、法律和道德考虑。此外，当前依赖手动设计问卷的光谱测试基准也不易于扩展。为了应对这些局限性，我们引入了NaVAB，这是一个全面的基准，用于评估LLMs与五个主要国家价值观的对齐情况：中国、美国、英国、法国和德国。NaVAB 实现了一个国家价值提取管道，以高效地构建价值评估数据集。具体来说，我们提出了一种带有指令标记的建模程序来处理原始数据源，一个筛选过程来筛选与价值相关的话题，以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在多个国家的各种LLMs上进行了广泛的实验，结果提供了关于识别不匹配情况的见解。此外，我们展示了NaVAB可以与对齐技术相结合，通过使LLMs的价值与目标国家的价值相匹配，有效地减少价值顾虑。