LLM2D

摘要

我们研究了基于transformer的基础模型中提示微调的统计和计算极限。我们的主要贡献是仅在一个具有\textit{单个}自注意力层的\textit{单头}transformer上进行提示微调：（i）具有普遍性，并且（ii）在强指数时间假设（SETH）下支持高效（甚至几乎线性时间）算法。在统计上，我们证明了在这种最简单的transformer上进行提示微调是序列到序列Lipschitz函数的通用逼近器。此外，我们提供了一个关于所需软提示标记的指数级（关于$dL$和$(1/\epsilon)$）下界，用于提示微调以记住任何具有1层、1头transformer的数据集。在计算方面，我们确定了提示微调效率的相变，该相变由\textit{软提示诱导的}键和查询的范数决定，并提供了一个上限标准。超过此标准，在SETH下不存在用于提示微调的任何次二次（高效）算法。在此标准内，我们通过证明几乎线性时间提示微调推理算法的存在来展示我们的理论。这些基本限制为从业者设计表达性和高效的提示微调方法提供了重要的必要条件。