LLM2D
可解释的软提示
Towards Interpretable Soft Prompts
作者: Oam Patel, Jason Wang, Nikhil Shivakumar Nayak, Suraj Srinivas, Himabindu Lakkaraju
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02144v1

摘要

arXiv:2504.02144v1 宣告类型: cross 摘要: 软提示作为一种经济且简便的方法,已被广泛用于提高特定任务的LLM性能,超越了少样本提示。然而,尽管它们起源于一种自动化提示方法,但软提示和其它可训练提示仍然是一种黑盒方法,没有直接可解释的提示联系。我们创建了一个全新的理论框架,用于基于两点期望来评估可训练提示的可解释性:忠诚度和可审查性。我们发现现有方法未能自然满足我们提出的可解释性标准。相反,我们的框架启发了一种新的可训练提示方法方向,明确地针对可解释性进行优化。为此,我们为两种最先进的提示调优器——PEZ(Hard Prompts Made Easy)和RLPrompt——制定了并测试了新的可解释性导向目标函数。我们的实验表明,可解释性和可训练提示的任务性能之间存在基本的权衡,阐明了软提示可解释性问题的基本困难,并揭示了在优化可解释性代理时出现的奇怪行为。