摘要
arXiv:2410.01532v3 宣告类型: 替换-交叉
摘要:自然语言处理(NLP)的进步催生了如GPT、Llama、Claude和Gemini等大型语言模型(LLMs),这些模型在各种任务上表现出色,但需要大量精细调整以使其输出符合人类预期。实现这种对齐的广泛使用方法是基于人类反馈的强化学习(RLHF),尽管这种方法取得了成功,但在准确建模人类偏好方面仍面临挑战。在本文中,我们介绍了一种新颖的框架GazeReward,该框架将隐式反馈——特别是眼动追踪(ET)数据——整合到奖励模型(RM)中。此外,我们还探讨了基于ET的功能如何为用户提供见解。通过消融研究,我们使用不同的集成方法、LLMs和ET生成模型测试了该框架,证明了我们的方法显着提高了RM在现有的人类偏好数据集上的准确度。这项工作推进了关于优化AI与人类价值观对齐的持续讨论,探索了认知数据的潜在性,以塑造未来的NLP研究方向。