摘要
arXiv:2407.10994v4 宣告类型: replace-cross
摘要:强大的开源大型语言模型(LLMs)的可用性为许多激动人心的应用打开了大门,比如使用个人数据来微调这些模型以模仿用户独特的写作风格。这种助手的两个关键要求是个性化——即助手应该能够在可辨认的程度上反映用户的写作风格——以及隐私——用户可能适当地担心向第三方服务上传极其个人化的数据,例如他们的电子邮件存档。在本文中,我们提出了一个新设计和评估,适用于特定的电子邮件生成用例,我们称之为Panza。Panza的个性化功能基于一种结合了Reverse Instructions技术变体和Retrieval-Augmented Generation (RAG)的方法。我们展示了这种结合允许我们在有限的数据和资源下(例如,在一个免费的Google Colab实例上)微调一个LLM,使它反映用户的写作风格。我们的主要方法贡献是首次对这个个性化写作风务的评估指标进行了详细的研究,以及不同系统组件选择(使用RAG和不同的微调方法)如何影响系统性能的研究。此外,我们证明了非常少量的数据——不到100封电子邮件样本——已经足够创建能够令人信服地模仿人类写作风格的模型。这一发现展示了一个以前未知的语言模型攻击向量——访问少量的写作风格样本可以使恶意行为者以低成本创建能够模仿目标写作风格的生成模型。我们正在将完整的Panza代码以及三个新的电子邮件数据集发布,这些数据集已获得研究使用许可,可以在https://github.com/IST-DASLab/PanzaMail找到。