LLM2D
IMPersona:评估个体级别的LM扮演能力
IMPersona: Evaluating Individual Level LM Impersonation
作者: Quan Shi, Carlos Jimenez, Stephen Dong, Brian Seo, Caden Yao, Adam Kelch, Karthik Narasimhan
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04332v1

摘要

arXiv:2504.04332v1 Announce Type: cross 摘要:随着语言模型在对话文本生成方面逐渐展现出类似人类的能力,一个关键问题产生了:这些系统在多大程度上能够模拟特定个体的特征?为了评估这一点,我们引入了IMP.Persona框架,该框架用于评估语言模型模仿特定个体的写作风格和个人知识的能力。利用监督微调和基于分层记忆的检索系统,我们展示了即使是如Llama-3.1-8B-Instruct这样的中等规模开源模型,也能达到令人担忧的模仿能力水平。在盲测对话实验中,参与者在44.44%的互动中错误地将结合记忆检索的微调模型视为人类,而基于最佳提示的方法仅为25.00%。我们分析了这些结果,提出了检测和防御此类模仿企图的方法。我们的研究结果引发了关于个性化语言模型潜在应用和风险的重要问题,特别是关于隐私、安全以及此类技术在现实世界场景中的伦理部署。