摘要
arXiv:2412.08127v2 通知类型: 替换交叉
摘要:人们广泛观察到,语言模型(LMs)对看似无法理解的算法生成的提示做出了可预测的反应。这既表明我们对LMs的工作原理缺乏完整的理解,也是一项实际挑战,因为透明度的缺乏可以被利用于LMs的危害性用途,例如脱缰(jailbreaking)。我们首次对不同大小和家族的6种机器生成的提示进行了全面分析,称为autoprompt。我们发现,机器生成的提示具有一个通常可理解且强烈影响生成的最后一个标记。前一个标记中有一小部分可以修剪,这可能是因为优化过程固定了标记的数量,导致它们在提示中出现。其余的标记可分为两类:填充标记,可以被语义无关的替代品替换;关键词,通常与生成之间至少有松散的语义关系,尽管它们未与之形成良好的句法关系。此外,人类专家可以可靠地在事后识别autoprompt中最具影响力的标记,这表明这些提示并非完全不可理解。最后,我们应用于autoprompt的一些消融实验在自然语言输入中产生了类似的效果,表明autoprompt自然地源自LMs处理语言输入的一般方式。