LLM2D

摘要

arXiv:2406.11785v3 公告类型: replace-cross 摘要：黑箱深度神经网络分类模型的出现引发了对其决策的解释需求。然而，在生成型AI（如大型语言模型LLMs）的情况下，并没有类别的预测可以进行解释。相反，可以通过询问LLM为什么会对给定的提示输出特定的回应来进行解释。在这篇论文中，我们通过提出一种仅需黑箱/查询访问的对比解释方法来回答这个问题。我们的解释表明，LLM对给定提示输出某个答复的原因是，如果稍微修改这个提示，LLM将会给出一个不同的回应，这个新的回应要么不如原来的回应理想，要么与原来的回应矛盾。关键洞察是，对比解释只需要一个有意义于用户的评分函数，而不需要一定是一种具体的实数值（例如类别标签）。为此，我们提供了一个新颖的预算算法，这是我们算法的主要贡献之一，该算法能够智能地根据这样的评分函数创建对比，同时遵守查询预算，这对于较长的上下文环境是必要的。我们展示了我们的方法在诸如开放式文本生成和聊天机器人对话等重要自然语言任务上的有效性。