LLM2D

摘要

arXiv:2504.02144v1 宣告类型: cross 摘要: 软提示作为一种经济且简便的方法，已被广泛用于提高特定任务的LLM性能，超越了少样本提示。然而，尽管它们起源于一种自动化提示方法，但软提示和其它可训练提示仍然是一种黑盒方法，没有直接可解释的提示联系。我们创建了一个全新的理论框架，用于基于两点期望来评估可训练提示的可解释性：忠诚度和可审查性。我们发现现有方法未能自然满足我们提出的可解释性标准。相反，我们的框架启发了一种新的可训练提示方法方向，明确地针对可解释性进行优化。为此，我们为两种最先进的提示调优器——PEZ（Hard Prompts Made Easy）和RLPrompt——制定了并测试了新的可解释性导向目标函数。我们的实验表明，可解释性和可训练提示的任务性能之间存在基本的权衡，阐明了软提示可解释性问题的基本困难，并揭示了在优化可解释性代理时出现的奇怪行为。