LLM2D

摘要

随着大型语言模型 (LLMs) 越来越融入我们的日常生活，它们欺骗行为带来的潜在危害突显了忠实解读其决策过程的必要性。虽然传统的探测方法已经展现出一定效果，但它们仍然最适合于范围狭窄的任务，而更全面的解释仍然是必要的。为此，我们研究了元模型——一种使用“元模型”的架构，该模型接收来自“输入模型”的激活并回答有关输入模型行为的自然语言问题。我们通过在选定的任务类型上训练元模型并评估它们在欺骗场景中的分布外性能来评估元模型的泛化能力。我们的研究结果表明，元模型可以很好地泛化到分布外任务，并为该领域的未来研究指明了方向。