LLM2D
LLMs可以容易地被指令干扰迷惑
LLMs can be easily Confused by Instructional Distractions
作者: Yerin Hwang, Yongil Kim, Jahyun Koo, Taegwan Kang, Hyunkyung Bae, Kyomin Jung
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04362v1

摘要

arXiv:2502.04362v1 Announce Type: cross 摘要:尽管大型语言模型(LLMs)在指令遵循任务中表现出色,但在被要求忽略某些指令时,这种优势可能会变成一种漏洞。指令遵循任务通常包含明确的任务描述和包含目标数据的输入文本。然而,当输入本身类似于指令时,即使有明确的提示来区分任务指令和输入,也可能出现混淆。我们称这种现象为指令干扰。在本文中,我们介绍了一个新的基准测试,名为DIM-Bench,专门用于评估LLMs在指令干扰下的表现。该基准测试对实际指令干扰实例进行了分类,并在重写、校对、翻译和风格转换这四项指令任务,以及推理、代码生成、数学推理、偏见检测和问答这五项输入任务上评估了LLMs。我们的实验结果表明,即使是最先进的LLMs也容易受到指令干扰的影响,在这种情况下经常无法准确地遵循用户意图。