LLM2D
大型语言模型在价值观驱动的问题上是否一致?
Are Large Language Models Consistent over Value-laden Questions?
作者: Jared Moore, Tanvi Deshpande, Diyi Yang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2407.02996v2

摘要

大型语言模型(LLMs)似乎在其调查答案中偏向某些价值观。然而,一些人认为LLMs 缺乏一致性,无法模拟特定的价值观。事实究竟如何?为了回答这个问题,我们首先将价值观一致性定义为答案在以下方面的相似性:(1)同一个问题的不同表达方式,(2)同一个主题下的相关问题,(3)同一个问题的多项选择和开放式应用场景,以及(4)同一个问题的英语、中文、德语和日语多语言翻译。我们使用涵盖 300 多个主题的 8,000 个问题,将这些指标应用于包括 llama-3 在内的小型和大型开放式 LLMs,以及 gpt-4o。与之前的工作不同,我们发现模型在不同的表达方式、应用场景、翻译以及同一个主题内都相对一致。尽管如此,仍然存在一些不一致。模型在非争议性主题(例如,在美国的“感恩节”)上比在争议性主题(“安乐死”)上更一致。基础模型在一致性方面比微调模型更强,并且在不同主题之间的一致性方面保持一致,而微调模型在某些主题(“安乐死”)上比其他主题(“妇女权利”)更不一致,这与我们的受试者(n=165)类似。