LLM2D

摘要

arXiv:2502.11681v2 宣告类型: replace-cross 摘要：对齐调优对于确保大型语言模型（LLMs）表现得伦理且有帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法，利用上下文学习（ICL）来增强LLM的对齐。通过对高质量ICL示例的分析，我们确定了风格是影响LLM对齐能力的关键因素，并基于这种风格框架显式地重新风格化了ICL范例。此外，我们将重新风格化的示例结合在一起，以平衡LLM对齐的两个冲突方面——事实性与安全性。我们将重新风格化的示例打包成提示以触发少样本学习，从而改进LLM的对齐。与最佳基线方法相比，该方法在Alpaca任务中的最大分值从5.00提高到5.10（提高0.10），在Just-eval基准测试中从4.34提高到4.56（提高0.22），在MT-Bench数据集中从3.53提高到3.85（最大改进0.32）。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布代码和数据。