摘要
arXiv:2409.13714v1 公告类型: 交叉 摘要: 实现对基于Transformer的语言模型的机制性理解是一个开放的挑战,特别是由于其大量的参数。此外,模型权重与其功能角色之间缺乏真实映射,阻碍了可解释性方法的有效评估,从而阻碍了整体进展。Tracr方法提出了一种在RASP中生成具有固有真实映射的编译Transformer,以解决这一问题。然而,手动创建大量用于验证可解释性方法的模型既费时又费力。在这项工作中,我们提出了一种使用大型语言模型(LLMs)生成可解释性测试平台的新方法,并引入了TracrBench,这是一个由121个手动编写和LLM生成的、经过人工验证的RASP程序及其相应的Transformer权重组成的新数据集。在此过程中,我们评估了前沿LLMs自主生成RASP程序的能力,发现这一任务具有显著挑战性。GPT-4-turbo在20次提示和最佳5次采样的情况下,仅正确实现了101个测试程序中的57个,其余程序需要手动实现。TracrBench的121个样本旨在作为评估和比较可解释性方法的有价值的测试平台。