摘要
自然语言处理 (NLP) 的进步导致了大型语言模型 (LLM) 的出现,如 GPT、Llama、Claude 和 Gemini,它们在各种任务中表现出色,但需要大量的微调才能使其输出符合人类的期望。实现这种对齐的一种广泛使用的方法是来自人类反馈的强化学习 (RLHF),尽管它取得了成功,但在准确建模人类偏好方面仍然面临挑战。在本文中,我们介绍了 GazeReward,这是一个将隐式反馈——特别是眼动追踪 (ET) 数据——整合到奖励模型 (RM) 中的新框架。此外,我们还探讨了基于 ET 的特征如何提供对用户偏好的洞察。通过消融研究,我们用不同的集成方法、LLM 和 ET 生成模型测试了我们的框架,证明了我们的方法显著提高了 RM 在已建立的人类偏好数据集上的准确性。这项工作推进了关于优化人工智能与人类价值观对齐的持续讨论,探索了认知数据在塑造未来 NLP 研究中的潜力。