摘要
arXiv:2502.02180v1 属性类型: 新的
摘要:能力评估对于理解和调节可能被部署或进一步开发的人工智能系统是必要的。因此,评估应该提供对人工智能系统能力准确估计的重要性是显而易见的。然而,在许多情况下,先前未显现的能力在模型被释放后很长时间才被激发出来。因此,已经投入了大量努力来开发从模型中激发潜在能力的方法。在本文中,我们通过故意训练模型生物(具有隐藏能力的语言模型,这些能力通过密码揭示)来评估能力激发技术的有效性。我们介绍了一种基于电路断开的新方法来训练模型生物,该方法对于激发技术比标准的密码锁定模型更为稳健。我们集中在基于提示和激活导向的激发技术上,并将其与微调方法进行了比较。在MCQA设置中,提示技术可以激发密码锁定和电路断开模型生物的真实能力,而激活导向则无法实现这一目标。对于代码生成任务,只有微调才能激发我们新型模型生物的隐藏能力。此外,我们的结果显示,结合技术可以提高激发的有效性。然而,如果可行,微调应是提高能力评估可信度的最佳方法。