LLM2D

摘要

本文研究了大型语言模型根据人类偏好进行对齐的问题。我们讨论了训练偏好模型（模拟人类偏好）的特点，以及我们发现对获得最佳结果至关重要的方法和细节。我们还讨论了使用强化学习来微调大型语言模型，并描述了我们遇到的挑战以及克服这些挑战的方法。此外，我们介绍了直接偏好优化方法的经验，该方法使我们能够在不创建单独的偏好模型的情况下，将大型语言模型与人类偏好进行对齐。作为我们的贡献，我们介绍了一种通过困惑度过滤收集偏好数据集的方法，这使得为特定语言模型创建此类数据集的过程更加容易且更具成本效益。