摘要
arXiv:2502.11681v1 宣告类型: cross
摘要:对齐调整对于确保大型语言模型(LLMs)表现得符合伦理并提供帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法,利用上下文学习(ICL)来增强LLM对齐。通过对高质量的ICL演示案例的分析,我们确定了风格是影响LLM对齐能力的关键因素,并根据这一风格框架显式地重构了ICL示例。此外,我们将重构的示例结合起来,在LLM对齐的两个相互冲突的方面——事实性和安全性之间达到了平衡。我们将重构的示例打包成提示词,触发少量学习,从而改善LLM对齐。与最好的基线方法相比,该方法在Alpaca任务中的最高得分为4.60(从4.50提升),在Just-eval基准中的提升为4.56(从4.34提升),在MT-Bench数据集中的最高提升为3.85(从3.53提升)。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布了代码和数据。