LLM2D
从人类视角看AI:基于注视响应奖励的人类一致性训练大规模语言模型
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models
作者: Angela Lopez-Cardona, Carlos Segura, Alexandros Karatzoglou, Sergi Abadal, Ioannis Arapakis
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2410.01532v3

摘要

arXiv:2410.01532v3 宣告类型: 替换-交叉 摘要:自然语言处理(NLP)的进步催生了如GPT、Llama、Claude和Gemini等大型语言模型(LLMs),这些模型在各种任务上表现出色,但需要大量精细调整以使其输出符合人类预期。实现这种对齐的广泛使用方法是基于人类反馈的强化学习(RLHF),尽管这种方法取得了成功,但在准确建模人类偏好方面仍面临挑战。在本文中,我们介绍了一种新颖的框架GazeReward,该框架将隐式反馈——特别是眼动追踪(ET)数据——整合到奖励模型(RM)中。此外,我们还探讨了基于ET的功能如何为用户提供见解。通过消融研究,我们使用不同的集成方法、LLMs和ET生成模型测试了该框架,证明了我们的方法显着提高了RM在现有的人类偏好数据集上的准确度。这项工作推进了关于优化AI与人类价值观对齐的持续讨论,探索了认知数据的潜在性,以塑造未来的NLP研究方向。