摘要
大型语言模型(LLMs)在各种任务和领域中的广泛应用,使得这些模型与人类价值观和偏好保持一致变得至关重要。鉴于人类价值观对齐的各种方法,从基于人类反馈的强化学习(RLHF)到宪法学习等,迫切需要在模型发布之前了解注入这些模型的人类价值观的范围和性质。此外,还需要在没有昂贵的大规模人工标注的情况下进行模型对齐。我们提出了 UniVaR,一个与模型架构和训练数据正交的人类价值分布的高维表示。从八种多语言 LLM 的价值相关输出中训练,并在四种多语言 LLM(即 LlaMA2、ChatGPT、JAIS 和 Yi)的输出上进行测试,我们表明 UniVaR 是一个强大的工具,可以比较嵌入在不同 LLM 中的不同语言来源的分布。通过 UniVaR,我们探索了不同的 LLM 如何在不同的语言和文化中优先考虑各种价值观,揭示了人类价值观和语言建模之间复杂相互作用的奥秘。