LLM2D
基于trial-error-explain的上下文学习的调参-free个性化对齐
Tuning-Free Personalized Alignment via Trial-Error-Explain In-Context Learning
作者: Hyundong Cho, Karishma Sharma, Nicolaas Jedema, Leonardo F. R. Ribeiro, Alessandro Moschitti, Ravi Krishnan, Jonathan May
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2502.08972v2

摘要

arXiv:2502.08972v2 宣告类型: replace-cross 摘要:语言模型被对齐为众多集体的声音,导致产生通用的输出,这些输出并不与特定用户的风格一致。在本文中,我们介绍了Trial-Error-Explain 在上下文学习(Trial-Error-Explain In-Context Learning, TICL),一种无需调优的方法,可以在每个用户少于10个示例的情况下,为文本生成任务个性化语言模型。TICL 通过试错解释过程迭代扩展上下文学习提示,添加模型生成的负样本和解释,这些负样本和解释为特定用户风格提供了细粒度的指导。TICL 在与 LLM-as-a-judge 的成对比较中,相对于前一种最先进技术水平,实现高达91.5%的胜率,并且在为写作电子邮件、文章和新闻文章进行个性化对齐的任务中,优于竞争性的无需调优基线。词法和定性分析表明,这些负样本和解释使语言模型能够更有效地学习风格化背景,并克服了他们在零样本输出中对结构性和正式措辞的偏见。通过在推断时预加载推理计算,创建一个用户特定的上下文学习提示,无需在测试时额外的生成步骤,TICL 提出了一种新颖且简单的个性化对齐方法。