摘要
arXiv:2502.01236v1 行为类型: cross
摘要:语言模型在受到自由形式文本提示时会展现出复杂多样的行为,使得很难定量化可能输出的空间。我们研究了行为引致的问题,目标在于寻找能够引起特定目标行为(例如虚构或有害响应)的提示。为了在指数级的可能提示空间中导航,我们训练调查员模型将随机选择的目标行为映射到能够引致它们的多样化输出分布,类似于鲁棒贝叶斯推理。我们通过监督微调、基于DPO的强化学习以及一个新颖的Frank-Wolfe训练目标来逐步发现多样化的提示策略。我们的调查员模型揭示了多种有效的并且对人类具有可解释性的提示,这些提示能够导致突破、虚构和开放性的异常行为,在AdvBench(有害行为)子集上的攻击成功率达到了100%,且虚构率为85%。