LLM2D

摘要

arXiv:2502.12566v1 宣布类型: 新摘要: 随着人们期望AI在人类生活中扮演不同的角色，使大语言模型（LLMs）具有不同个性，吸引了越来越多的研究兴趣。虽然“拟人化”增强了LLMs的互动性和适应性，但它也引发了关于内容安全的关键关注，尤其是在与LLM生成内容相关性方面涉及偏见、情感和毒性的问题。本研究探讨了将不同个性特征赋予LLMs如何影响其输出的偏见和毒性。利用社会心理学广泛接受的HEXACO个性框架，我们设计了实验性较强的提示，测试了三种LLMs在三个毒性与偏见基准上的表现。研究发现，这三种模型对HEXACO个性特征都十分敏感，更重要的是，它们输出的偏见、负面情感和毒性存在一致的差异。特别是，调整几个个性特征的水平可以有效减少模型性能中的偏见和毒性，类似于人类个性特征与有毒行为之间的相关性。研究结果强调了除了训练或微调方法的有效性之外，还需要检查LLM拟人化的内容安全。它们还表明，个性调整可能是一种简单且低成本的方法，可以在受控条件下进行文本生成。