摘要
arXiv:2411.08884v2 宣告类型: 替换-交叉
摘要:随着大型语言模型(LLMs)的普及,对其安全、伦理和潜在偏见的担忧也随之增加。系统性评估LLMs的风险决策倾向和态度,特别是在伦理领域的重要性变得至关重要。本研究创新地将认知科学中的领域特定冒险倾向(DOSPERT)量表应用于LLMs,并提出了一种新的伦理决策风险态度量表(EDRAS),以深入评估LLMs的伦理风险态度。我们进一步提出了一种新的方法,将风险量表与角色扮演结合,以定量评估LLMs中的系统性偏见。通过系统评估和分析多个主流LLMs,我们在多个领域评估了LLMs的“风险个性”,特别关注伦理领域,并揭示和量化了LLMs对不同群体的系统性偏见。本研究有助于理解LLMs的风险决策,并确保其安全可靠的使用。我们的方法提供了一种识别和减轻偏见的工具,有助于更公平和可信的AI系统的构建。代码和数据已开源。