摘要
arXiv:2503.10927v2 公告类型:替换交叉
摘要:虽然大型语言模型(LLMs)在自然语言处理方面取得了显著进展,但将它们与人类偏好对齐仍然是一项开放性的挑战。尽管当前的对齐方法主要依赖于显式反馈,但阅读过程中的眼动追踪(ET)数据提供了有关实时认知处理的见解。在本文中,我们介绍了OASST-ETC,这是一个新颖的眼动追踪语料库,该语料库记录了24名参与者在评估OASST1数据集中LLM生成的回应时的阅读模式。我们的分析揭示了偏好回应与非偏好回应之间不同的阅读模式,并将这些模式与合成的眼动追踪数据进行了比较。此外,我们还研究了人类阅读度量与各种基于变换器模型的注意力模式之间的相关性,发现偏好回应具有更强的相关性。本文介绍了研究LLM评估中人类认知处理的独特资源,并建议将眼动追踪数据纳入对齐方法中的潜在方向。数据集和分析代码均已公开。