LLM2D

摘要

arXiv:2409.13714v1 公告类型: 交叉摘要: 实现对基于Transformer的语言模型的机制性理解是一个开放的挑战，特别是由于其大量的参数。此外，模型权重与其功能角色之间缺乏真实映射，阻碍了可解释性方法的有效评估，从而阻碍了整体进展。Tracr方法提出了一种在RASP中生成具有固有真实映射的编译Transformer，以解决这一问题。然而，手动创建大量用于验证可解释性方法的模型既费时又费力。在这项工作中，我们提出了一种使用大型语言模型（LLMs）生成可解释性测试平台的新方法，并引入了TracrBench，这是一个由121个手动编写和LLM生成的、经过人工验证的RASP程序及其相应的Transformer权重组成的新数据集。在此过程中，我们评估了前沿LLMs自主生成RASP程序的能力，发现这一任务具有显著挑战性。GPT-4-turbo在20次提示和最佳5次采样的情况下，仅正确实现了101个测试程序中的57个，其余程序需要手动实现。TracrBench的121个样本旨在作为评估和比较可解释性方法的有价值的测试平台。