LLM2D

摘要

arXiv:2504.12911v2 宣告类型：替换交叉摘要：大型语言模型（LLMs）是否持有与您国家价值观相冲突的立场？有时确实如此！然而，现有的工作主要集中在道德审查上，未能捕捉到国家价值观的多样性，这涵盖了更广泛的政策、法律和道德考虑。此外，当前依赖于手动设计问卷的频谱测试基准也不容易扩展。为应对这些限制，我们引入了NaVAB，这是一个全面的基准，用于评估LLMs与五个主要国家的价值观：中国、美国、英国、法国和德国的契合度。NaVAB 实施了一个国家价值观提取管道，以高效地构建价值评估数据集。具体来说，我们提出了一个带有指令标记的建模程序来处理原始数据源，一个筛选过程来过滤价值相关主题，以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在不同国家的各种LLMs上进行了广泛的实验，结果提供了在识别失配情景方面的一些见解。此外，我们展示了NaVAB可以与对齐技术结合起来，通过将LLMs的价值与目标国家对齐来有效减少价值关切。