LLM2D
IOPO:通过输入输出偏好优化赋能大型语言模型处理复杂指令
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
作者: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.06208v2

摘要

在大语言模型(LLM)领域,随着越来越多的代理和应用程序利用LLM进行构建,模型准确遵循指令的能力至关重要,而指令的复杂性也在迅速增加。然而,一方面,复杂的指令评估数据有限;另一方面,也没有专门的算法来提高遵循复杂指令的能力。为此,本文介绍了TRACE,一个用于改进和评估复杂指令遵循能力的基准,包含12万条训练数据和1000条评估数据。此外,我们提出了IOPO(输入-输出偏好优化)对齐方法,该方法同时考虑输入和输出偏好对,使LLM不仅能快速与响应偏好对齐,还能仔细探索指令偏好。在领域内和领域外数据集上的大量实验都证实了IOPO的有效性,与SFT和DPO相比,在领域内数据上分别提高了8.15%和2.18%,在领域外数据上分别提高了6.29%和3.13%。