LLM2D
探索人格特质对大模型偏差和毒性的影响
Exploring the Impact of Personality Traits on LLM Bias and Toxicity
作者: Shuo Wang, Renhao Li, Xi Chen, Yulin Yuan, Derek F. Wong, Min Yang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12566v1

摘要

arXiv:2502.12566v1 宣布类型: 新 摘要: 随着人们期望AI在人类生活中扮演不同的角色,使大语言模型(LLMs)具有不同个性,吸引了越来越多的研究兴趣。虽然“拟人化”增强了LLMs的互动性和适应性,但它也引发了关于内容安全的关键关注,尤其是在与LLM生成内容相关性方面涉及偏见、情感和毒性的问题。本研究探讨了将不同个性特征赋予LLMs如何影响其输出的偏见和毒性。利用社会心理学广泛接受的HEXACO个性框架,我们设计了实验性较强的提示,测试了三种LLMs在三个毒性与偏见基准上的表现。研究发现,这三种模型对HEXACO个性特征都十分敏感,更重要的是,它们输出的偏见、负面情感和毒性存在一致的差异。特别是,调整几个个性特征的水平可以有效减少模型性能中的偏见和毒性,类似于人类个性特征与有毒行为之间的相关性。研究结果强调了除了训练或微调方法的有效性之外,还需要检查LLM拟人化的内容安全。它们还表明,个性调整可能是一种简单且低成本的方法,可以在受控条件下进行文本生成。