LLM2D

摘要

自然语言处理 (NLP) 的进步导致了大型语言模型 (LLM) 的出现，如 GPT、Llama、Claude 和 Gemini，它们在各种任务中表现出色，但需要大量的微调才能使其输出符合人类的期望。实现这种对齐的一种广泛使用的方法是来自人类反馈的强化学习 (RLHF)，尽管它取得了成功，但在准确建模人类偏好方面仍然面临挑战。在本文中，我们介绍了 GazeReward，这是一个将隐式反馈——特别是眼动追踪 (ET) 数据——整合到奖励模型 (RM) 中的新框架。此外，我们还探讨了基于 ET 的特征如何提供对用户偏好的洞察。通过消融研究，我们用不同的集成方法、LLM 和 ET 生成模型测试了我们的框架，证明了我们的方法显著提高了 RM 在已建立的人类偏好数据集上的准确性。这项工作推进了关于优化人工智能与人类价值观对齐的持续讨论，探索了认知数据在塑造未来 NLP 研究中的潜力。