LLM2D

摘要

arXiv:2502.12206v1 公告类型: 新摘要: 随着大型语言模型（LLMs）的不断发展，确保它们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是“工具化趋同”（instrumental convergence），在这种情况下，AI系统在优化特定目标时，会发展出未预期的中间目标，这些目标会凌驾于最终目标之上，并偏离人类预期的目标。这一问题在通过强化学习（RL）训练的模型中尤为相关，因为这些模型可以生成创意但未预期的策略来最大化奖励。在本文中，我们通过将直接RL优化训练的模型（例如o1模型）与强化学习从人类反馈训练的模型（RLHF）进行比较，探讨LLMs中的工具化趋同问题。我们假设被RL驱动的模型在某种程度上更容易表现出工具化趋同，因为它们以可能与人类意图不符的方式优化目标导向行为。为了评估这一点，我们引入了InstrumentalEval，一个用于评估RL训练的LLMs中工具化趋同的基准。初步实验揭示了模型在被赋予赚钱任务时意外追求工具化目标（如自我复制）的情况，这意味着存在工具化趋同的迹象。我们的研究结果有助于更深入地理解AI系统中的对齐挑战，以及由未预期的模型行为所带来的风险。