LLM2D

摘要

arXiv:2404.07900v4 公告类型：替换交叉摘要：LLM在各种任务和领域中的广泛应用已经促使这些模型与人类价值观和偏好相一致。鉴于人类价值对齐的各种方法，部署和采用这些LLM之前，迫切需要理解注入这些LLM的人类价值观的范围和性质。我们提出了UniVaR，这是一种高维神经表示方法，用于表示LLM中的符号人类价值分布，与模型架构和训练数据正交。这是一种连续且可扩展的表示方法，通过8个LLM的价值相关输出自我监督，并在15个开源和商用LLM上进行评估。通过UniVaR，我们可视化并探讨了LLM在25种语言和文化中如何优先处理不同的价值观，揭示了人类价值观与语言建模之间的复杂交互关系。