LLM2D

摘要

arXiv:2312.12747v2 宣告类型: 替换-交叉摘要：我们如何衡量语言模型解释方法的有效性？虽然已经开发了许多解释方法，但它们通常是在定制的任务上进行评估，这妨碍了直接比较。为了填补这一空白，我们提出了ALMANACS，一个语言模型解释基准。ALMANACS基于解释的模拟性来评估解释方法，即解释如何改善新输入的行为预测。ALMANACS的情景涵盖了十二个与安全相关的主题，如道德推理和高级人工智能行为；它们具有特定的前提条件，以引发特定模型的行为；并且它们具有训练-测试分布的变化，以鼓励忠实的解释。通过使用另一个语言模型根据解释来预测行为，ALMANACS是一个完全自动化的基准。虽然它不是人类评估的替代品，但我们希望ALMANACS成为一种补充的、自动化的工具，允许快速、高效的评估。使用ALMANACS，我们评估了反事实、合理化、注意和集成梯度解释。我们的结果令人警醒：总体而言，在所有主题上平均计算后，没有解释方法优于没有解释的控制组方法。我们得出结论，尽管以前的工作取得了 modest 成功，但在ALMANACS中开发一种有助于模拟性的解释方法仍然是一个开放的挑战。