LLM2D
ALMANACS:语言模型可解释性可模拟基准
ALMANACS: A Simulatability Benchmark for Language Model Explainability
作者: Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2312.12747v2

摘要

arXiv:2312.12747v2 宣告类型: 替换-交叉 摘要:我们如何衡量语言模型解释方法的有效性?虽然已经开发了许多解释方法,但它们通常是在定制的任务上进行评估,这妨碍了直接比较。为了填补这一空白,我们提出了ALMANACS,一个语言模型解释基准。ALMANACS基于解释的模拟性来评估解释方法,即解释如何改善新输入的行为预测。ALMANACS的情景涵盖了十二个与安全相关的主题,如道德推理和高级人工智能行为;它们具有特定的前提条件,以引发特定模型的行为;并且它们具有训练-测试分布的变化,以鼓励忠实的解释。通过使用另一个语言模型根据解释来预测行为,ALMANACS是一个完全自动化的基准。虽然它不是人类评估的替代品,但我们希望ALMANACS成为一种补充的、自动化的工具,允许快速、高效的评估。使用ALMANACS,我们评估了反事实、合理化、注意和集成梯度解释。我们的结果令人警醒:总体而言,在所有主题上平均计算后,没有解释方法优于没有解释的控制组方法。我们得出结论,尽管以前的工作取得了 modest 成功,但在ALMANACS中开发一种有助于模拟性的解释方法仍然是一个开放的挑战。