LLM2D

摘要

arXiv:2502.03699v1 宣告类型: cross 摘要：大规模语言模型（LLMs）通过推理、编程和通信能力革新了人工智能，推动了各行各业的创新。它们的实际潜力取决于有效的对齐，以确保正确、可信和道德的行为，解决诸如虚假信息、幻觉、偏见和误用等挑战。虽然现有的基于强化学习（RL）的对齐方法异常复杂，但直接优化方法提供了一种更简单的替代方案。在本文中，我们通过借鉴已建立的信息检索（IR）原则，引入了一种新颖的直接优化对齐方法。我们提出了一种系统框架，将LLM对齐和IR方法联系起来，在信息检索的检索-重排序 paradigms 中映射 LLM 生成和奖励模型。在此基础上，我们提出了一种新的对齐方法 LLM 对齐检索偏好优化（LarPO），该方法提高了整体对齐质量。广泛的实验验证了 LarPO 的有效性，分别在 AlpacaEval2 和 MixEval-Hard 上平均提高了 38.9% 和 13.7%。我们通过整合信息检索基础，打开了推进 LLM 对齐的新途径，并为未来研究提供了有希望的方向。