摘要
arXiv:2502.08972v1 类型: cross
摘要:语言模型被调整为众多声音的集合,从而生成普遍化的输出,这些输出未必能够匹配特定用户的写作风格。在本文中,我们提出了试错解释上下文学习(TICL)方法,这是一种无需调优的方法,可以在少于10个用户示例的情况下为文本生成任务个性化语言模型。TICL 通过试错解释过程迭代扩展上下文学习提示,添加由模型生成的负样本和解释,这些负样本和解释提供了对特定用户写作风格的细致指导。TICL 在与 LLM 作为法官的两两比较中,相对于之前的最佳表现达到了 91.5% 以上的胜率,并且在个性化对齐写作电子邮件、文章和新闻文章的任务中超过了竞争性的无需调优基线。语义和定性分析显示,负样本和解释使语言模型能够更有效地学习风格语境,并克服了它们零样本输出中对结构化和形式化短语的偏见。通过在推理过程中提前加载计算资源来创建一个特定于用户的上下文学习提示,而测试时无需额外的生成步骤,TICL 提供了一种新颖且简单的个性化对齐方法。