LLM2D

摘要

在大语言模型（LLM）领域，随着越来越多的代理和应用程序利用LLM进行构建，模型准确遵循指令的能力至关重要，而指令的复杂性也在迅速增加。然而，一方面，复杂的指令评估数据有限；另一方面，也没有专门的算法来提高遵循复杂指令的能力。为此，本文介绍了TRACE，一个用于改进和评估复杂指令遵循能力的基准，包含12万条训练数据和1000条评估数据。此外，我们提出了IOPO（输入-输出偏好优化）对齐方法，该方法同时考虑输入和输出偏好对，使LLM不仅能快速与响应偏好对齐，还能仔细探索指令偏好。在领域内和领域外数据集上的大量实验都证实了IOPO的有效性，与SFT和DPO相比，在领域内数据上分别提高了8.15%和2.18%，在领域外数据上分别提高了6.29%和3.13%。