LLM2D
elicitation 游戏:评估能力 elicitation 技术
The Elicitation Game: Evaluating Capability Elicitation Techniques
作者: Felix Hofst\"atter, Teun van der Weij, Jayden Teoh, Henning Bartsch, Francis Rhys Ward
发布日期: 2/5/2025
arXiv ID: 2502.02180

摘要

arXiv:2502.02180v1 宣告类型: 新颖 摘要:能力评估对于理解并监管可能部署或进一步发展的AI系统至关重要。因此,评估需要提供AI系统能力的准确估计。然而,在许多情况下,模型中原本隐藏的能力在初始发布后很长时间才被激发出来。因此,已经做出了大量的努力来开发从模型中激发隐藏能力的方法。在本文中,我们通过故意训练模型有机体——带有隐藏能力的语言模型,这些能力可以通过密码揭示,来评估能力激发技术的有效性。我们基于断路的方法介绍了一种新的模型有机体训练方法,这种方法比标准的密码锁定模型更能抵御激发技术。我们专注于基于提示和激活引导的激发技术,并将其与微调方法进行比较。提示技术可以在MCQA设置中激发密码锁定和断路模型有机体的实际能力,而引导则无法做到这一点。对于代码生成任务,只有微调能够激发我们新型模型有机体的隐藏能力。此外,我们的结果表明,结合技术可以提高激发效果。不过,如果可能的话,微调应是提高能力评估可信度的方法选择。