摘要
arXiv:2502.11681v2 宣告类型: replace-cross
摘要:对齐调优对于确保大型语言模型(LLMs)表现得伦理且有帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法,利用上下文学习(ICL)来增强LLM的对齐。通过对高质量ICL示例的分析,我们确定了风格是影响LLM对齐能力的关键因素,并基于这种风格框架显式地重新风格化了ICL范例。此外,我们将重新风格化的示例结合在一起,以平衡LLM对齐的两个冲突方面——事实性与安全性。我们将重新风格化的示例打包成提示以触发少样本学习,从而改进LLM的对齐。与最佳基线方法相比,该方法在Alpaca任务中的最大分值从5.00提高到5.10(提高0.10),在Just-eval基准测试中从4.34提高到4.56(提高0.22),在MT-Bench数据集中从3.53提高到3.85(最大改进0.32)。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布代码和数据。