LLM2D

摘要

arXiv:2504.04332v2 公告类型：替换-交叉摘要：随着语言模型在对话文本生成方面实现越来越接近人类的能力，一个关键问题浮现出来：这些系统能够模拟特定个体特征到什么程度？为评估这一点，我们引入了 IMPersona 框架，用于评估语言模型在模仿特定个体的写作风格和个人知识方面的表现。通过监督微调和受层次记忆启发的检索系统，我们证明即使是规模相对较小的开源模型，如 Llama-3.1-8B-Instruct，也能达到令人担忧的模仿能力水平。在盲对话实验中，参与者在44.44%的交互中将我们的带有记忆整合的微调模型误认为是人类，而最好的提示基方法仅有25.00%的识别率。我们分析了这些结果，提出了检测方法和防御策略，以应对这种模仿行为。我们的发现引发了关于个性化语言模型的潜在应用和风险的重要问题，特别是在隐私、安全以及这些技术在现实世界中的道德部署方面。