摘要
arXiv:2503.10965v2 宣告类型: 替换
摘要: 我们研究了执行对齐审核的可能性:调查模型是否具有不良目标。作为测试平台,我们训练了一个带有隐藏目标的语言模型。训练管道首先让模型了解在强化学习人类反馈奖励模型(RMs)中可利用的错误,然后训练模型利用其中的一些错误。通过离分布评估,我们验证模型能够泛化并展现出它认为RMs评价高的行为,包括训练期间未强化的行为。我们通过这种模型以两种方式研究对齐审核。首先,我们进行了一次盲审计游戏,四支队伍在接受不到模型的隐藏目标或训练信息的情况下,调查模型的潜在问题及其原因。三支队伍利用包括稀疏自编码器(SAEs)的可解释性、行为攻击和训练数据分析等技术成功发现了模型的隐藏目标。其次,我们对八种审计模型的技术进行了后续研究,分析了它们的优点和局限性。总体来说,我们的工作为使用对齐审核发现模型隐藏目标提供了一个具体的实例,并提出了实践和验证对齐审核进步的方法学。