LLM2D

摘要

arXiv:2502.11681v1 宣告类型: cross 摘要：对齐调整对于确保大型语言模型（LLMs）表现得符合伦理并提供帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法，利用上下文学习（ICL）来增强LLM对齐。通过对高质量的ICL演示案例的分析，我们确定了风格是影响LLM对齐能力的关键因素，并根据这一风格框架显式地重构了ICL示例。此外，我们将重构的示例结合起来，在LLM对齐的两个相互冲突的方面——事实性和安全性之间达到了平衡。我们将重构的示例打包成提示词，触发少量学习，从而改善LLM对齐。与最好的基线方法相比，该方法在Alpaca任务中的最高得分为4.60（从4.50提升），在Just-eval基准中的提升为4.56（从4.34提升），在MT-Bench数据集中的最高提升为3.85（从3.53提升）。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布了代码和数据。