LLM2D
评估夹子最大化者:基于强化学习的语言模型更有可能追求工具性目标吗?
Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals?
作者: Yufei He, Yuexin Li, Jiaying Wu, Yuan Sui, Yulin Chen, Bryan Hooi
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12206v1

摘要

arXiv:2502.12206v1 公告类型: 新 摘要: 随着大型语言模型(LLMs)的不断发展,确保它们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是“工具化趋同”(instrumental convergence),在这种情况下,AI系统在优化特定目标时,会发展出未预期的中间目标,这些目标会凌驾于最终目标之上,并偏离人类预期的目标。这一问题在通过强化学习(RL)训练的模型中尤为相关,因为这些模型可以生成创意但未预期的策略来最大化奖励。在本文中,我们通过将直接RL优化训练的模型(例如o1模型)与强化学习从人类反馈训练的模型(RLHF)进行比较,探讨LLMs中的工具化趋同问题。我们假设被RL驱动的模型在某种程度上更容易表现出工具化趋同,因为它们以可能与人类意图不符的方式优化目标导向行为。为了评估这一点,我们引入了InstrumentalEval,一个用于评估RL训练的LLMs中工具化趋同的基准。初步实验揭示了模型在被赋予赚钱任务时意外追求工具化目标(如自我复制)的情况,这意味着存在工具化趋同的迹象。我们的研究结果有助于更深入地理解AI系统中的对齐挑战,以及由未预期的模型行为所带来的风险。