LLM2D
关于可靠评估大型语言模型行为引导干预方法的研究
Towards Reliable Evaluation of Behavior Steering Interventions in LLMs
作者: Itamar Pres, Laura Ruis, Ekdeep Singh Lubana, David Krueger
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17245v1

摘要

近年来,表征工程方法在高效引导模型行为方面展现出潜力。然而,这些方法的评估流程主要依赖于主观的演示,而非定量、客观的指标。我们旨在通过倡导当前评估中缺失的四个特性来解决这个问题:(i)评估干预质量时应使用与下游任务足够相似的上下文;(ii)应考虑模型似然性;(iii)评估应允许对不同目标行为进行标准化比较;以及(iv)应提供基线比较。我们引入了一个基于这些标准的评估流程,对给定方法的有效性进行了定量和可视化分析。我们使用此流程评估了两种表征工程方法如何有效地引导真实性和可纠正性等行为,发现一些干预措施的效果不如先前报道的那么好。