LLM2D

摘要

arXiv:2502.02180v1 宣告类型: 新颖摘要：能力评估对于理解并监管可能部署或进一步发展的AI系统至关重要。因此，评估需要提供AI系统能力的准确估计。然而，在许多情况下，模型中原本隐藏的能力在初始发布后很长时间才被激发出来。因此，已经做出了大量的努力来开发从模型中激发隐藏能力的方法。在本文中，我们通过故意训练模型有机体——带有隐藏能力的语言模型，这些能力可以通过密码揭示，来评估能力激发技术的有效性。我们基于断路的方法介绍了一种新的模型有机体训练方法，这种方法比标准的密码锁定模型更能抵御激发技术。我们专注于基于提示和激活引导的激发技术，并将其与微调方法进行比较。提示技术可以在MCQA设置中激发密码锁定和断路模型有机体的实际能力，而引导则无法做到这一点。对于代码生成任务，只有微调能够激发我们新型模型有机体的隐藏能力。此外，我们的结果表明，结合技术可以提高激发效果。不过，如果可能的话，微调应是提高能力评估可信度的方法选择。