LLM2D
通过潜在特征引导探索大语言模型的人格特质
Exploring the Personality Traits of LLMs through Latent Features Steering
作者: Shu Yang, Shenzhe Zhu, Liang Liu, Lijie Hu, Mengdi Li, Di Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2410.10863v2

摘要

arXiv:2410.10863v2 声明类型: replace-cross 摘要:大规模语言模型(LLMs)通过其生成人类语言文本的能力显著推进了对话系统和角色扮演代理的发展。虽然前期研究已经表明LLMs能够展现出独特的且一致的性格特征,但这些模型是如何编码和表达特定的性格特质的机制仍然知之甚少。为了解决这个问题,我们研究了文化规范和环境压力等因素如何被编码在LLMs中,进而影响其性格特质,这些因素是由社会决定论的理论框架指导的。受到LLM可解释性相关工作的启发,我们提出了一种无需训练的方法来通过提取和引导与模型中因素相对应的潜在特征来修改模型的行为,从而消除重新训练的需要。此外,我们从性格的角度分析了这些因素对模型安全性的影响。