LLM2D

摘要

arXiv:2502.08972v3 通告类型: replace-cross 摘要：语言模型与集体的声音对齐，导致生成的输出并不符合特定用户的风格。在本文中，我们提出了一种无需调优的方法——试错解释上下文学习（TICL），该方法通过少于10个用户的示例来个性化语言模型以进行文本生成任务。TICL 通过试错解释过程迭代地扩展上下文学习提示，添加由模型生成的负样本和解释，这些负样本和解释提供具体的指导以适应特定用户的风格。TICL 在与LLM作为裁判的两两比较中取得了高达91.5%的优势胜率，并且在个人化对齐任务中撰写电子邮件、文章和新闻文章方面优于竞争性的无需调优基线。无论是从词汇层面还是定性层面的分析都表明，负样本和解释使得语言模型能够更有效地学习风格化的上下文，并克服了它们零样本输出中对结构化和正式短语的偏差。通过提前加载推理计算来创建一个针对特定用户的上下文学习提示，该方法在测试时不需要额外的生成步骤，TICL 提出了一种新颖而简单的个人化对齐方法。