LLM2D

摘要

arXiv:2502.08972v2 宣告类型: replace-cross 摘要：语言模型被对齐为众多集体的声音，导致产生通用的输出，这些输出并不与特定用户的风格一致。在本文中，我们介绍了Trial-Error-Explain 在上下文学习（Trial-Error-Explain In-Context Learning, TICL），一种无需调优的方法，可以在每个用户少于10个示例的情况下，为文本生成任务个性化语言模型。TICL 通过试错解释过程迭代扩展上下文学习提示，添加模型生成的负样本和解释，这些负样本和解释为特定用户风格提供了细粒度的指导。TICL 在与 LLM-as-a-judge 的成对比较中，相对于前一种最先进技术水平，实现高达91.5%的胜率，并且在为写作电子邮件、文章和新闻文章进行个性化对齐的任务中，优于竞争性的无需调优基线。词法和定性分析表明，这些负样本和解释使语言模型能够更有效地学习风格化背景，并克服了他们在零样本输出中对结构性和正式措辞的偏见。通过在推断时预加载推理计算，创建一个用户特定的上下文学习提示，无需在测试时额外的生成步骤，TICL 提出了一种新颖且简单的个性化对齐方法。