LLM2D
使用调查代理 eliciting 语言模型行为
Eliciting Language Model Behaviors with Investigator Agents
作者: Xiang Lisa Li, Neil Chowdhury, Daniel D. Johnson, Tatsunori Hashimoto, Percy Liang, Sarah Schwettmann, Jacob Steinhardt
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01236v1

摘要

arXiv:2502.01236v1 行为类型: cross 摘要:语言模型在受到自由形式文本提示时会展现出复杂多样的行为,使得很难定量化可能输出的空间。我们研究了行为引致的问题,目标在于寻找能够引起特定目标行为(例如虚构或有害响应)的提示。为了在指数级的可能提示空间中导航,我们训练调查员模型将随机选择的目标行为映射到能够引致它们的多样化输出分布,类似于鲁棒贝叶斯推理。我们通过监督微调、基于DPO的强化学习以及一个新颖的Frank-Wolfe训练目标来逐步发现多样化的提示策略。我们的调查员模型揭示了多种有效的并且对人类具有可解释性的提示,这些提示能够导致突破、虚构和开放性的异常行为,在AdvBench(有害行为)子集上的攻击成功率达到了100%,且虚构率为85%。