LLM2D

摘要

随着大型语言模型（LLM）日益融入我们的日常生活，其欺骗性行为所带来的潜在危害，使得忠实解读其决策过程变得至关重要。虽然传统的探测方法已展现出一定效果，但它们仍然最适合于范围狭窄的任务，而更全面的解释仍然是必要的。为此，我们研究了元模型——一种使用“元模型”的架构，该模型从“输入模型”获取激活，并回答有关输入模型行为的自然语言问题。我们通过在选定的任务类型上训练元模型并评估其在欺骗场景中的分布外性能来评估其泛化能力。我们的研究结果表明，元模型可以很好地泛化到分布外任务，并指出了该领域未来研究的机会。