摘要
arXiv:2504.02144v1 宣告类型: cross
摘要: 软提示作为一种经济且简便的方法,已被广泛用于提高特定任务的LLM性能,超越了少样本提示。然而,尽管它们起源于一种自动化提示方法,但软提示和其它可训练提示仍然是一种黑盒方法,没有直接可解释的提示联系。我们创建了一个全新的理论框架,用于基于两点期望来评估可训练提示的可解释性:忠诚度和可审查性。我们发现现有方法未能自然满足我们提出的可解释性标准。相反,我们的框架启发了一种新的可训练提示方法方向,明确地针对可解释性进行优化。为此,我们为两种最先进的提示调优器——PEZ(Hard Prompts Made Easy)和RLPrompt——制定了并测试了新的可解释性导向目标函数。我们的实验表明,可解释性和可训练提示的任务性能之间存在基本的权衡,阐明了软提示可解释性问题的基本困难,并揭示了在优化可解释性代理时出现的奇怪行为。