LLM2D

摘要

arXiv:2410.01532v3 宣告类型: 替换-交叉摘要：自然语言处理（NLP）的进步催生了如GPT、Llama、Claude和Gemini等大型语言模型（LLMs），这些模型在各种任务上表现出色，但需要大量精细调整以使其输出符合人类预期。实现这种对齐的广泛使用方法是基于人类反馈的强化学习（RLHF），尽管这种方法取得了成功，但在准确建模人类偏好方面仍面临挑战。在本文中，我们介绍了一种新颖的框架GazeReward，该框架将隐式反馈——特别是眼动追踪（ET）数据——整合到奖励模型（RM）中。此外，我们还探讨了基于ET的功能如何为用户提供见解。通过消融研究，我们使用不同的集成方法、LLMs和ET生成模型测试了该框架，证明了我们的方法显着提高了RM在现有的人类偏好数据集上的准确度。这项工作推进了关于优化AI与人类价值观对齐的持续讨论，探索了认知数据的潜在性，以塑造未来的NLP研究方向。