LLM2D

摘要

大型语言模型（LLMs）似乎在其调查答案中偏向某些价值观。然而，一些人认为LLMs 缺乏一致性，无法模拟特定的价值观。事实究竟如何？为了回答这个问题，我们首先将价值观一致性定义为答案在以下方面的相似性：（1）同一个问题的不同表达方式，（2）同一个主题下的相关问题，（3）同一个问题的多项选择和开放式应用场景，以及（4）同一个问题的英语、中文、德语和日语多语言翻译。我们使用涵盖 300 多个主题的 8,000 个问题，将这些指标应用于包括 llama-3 在内的小型和大型开放式 LLMs，以及 gpt-4o。与之前的工作不同，我们发现模型在不同的表达方式、应用场景、翻译以及同一个主题内都相对一致。尽管如此，仍然存在一些不一致。模型在非争议性主题（例如，在美国的“感恩节”）上比在争议性主题（“安乐死”）上更一致。基础模型在一致性方面比微调模型更强，并且在不同主题之间的一致性方面保持一致，而微调模型在某些主题（“安乐死”）上比其他主题（“妇女权利”）更不一致，这与我们的受试者（n=165）类似。