LLM2D

摘要

arXiv:2412.08127v3 宣告类型: replace-cross 摘要：广泛观察到，语言模型（LMs）对看似不可理解的算法生成的提示作出可预测的响应。这既表明我们对LMs的工作方式缺乏全面的理解，也是一个实际挑战，因为这种不透明性可以被利用来有害地使用LMs，例如越狱。我们首次对6种不同大小和类型的LMs相关的不透明机器生成提示，或自助提示进行了全面分析。我们发现，机器生成的提示通常由一个可理解的最后一个词组成，这一词强烈影响生成结果。前几个词中有一小部分是可剪枝的，很可能产生于优化过程固定词数的事实。剩余的词分为两类：填充词，可以被语义上不相关的替代词所替换；以及关键字，虽然它与生成结果之间有一定的语义关联，但通常不参与良好的语法关系。此外，人类专家可以可靠地在事后识别出自助提示中最关键的词，表明这些提示并非完全不透明。最后，我们对自助提示的一些消融实验在自然语言输入中也产生了类似的效果，表明这些提示自然地来自于LMs处理语言输入的一般方式。