LLM2D

摘要

arXiv:2502.04362v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）在指令遵循任务中表现出色，但在被要求忽略某些指令时，这种优势可能会变成一种漏洞。指令遵循任务通常包含明确的任务描述和包含目标数据的输入文本。然而，当输入本身类似于指令时，即使有明确的提示来区分任务指令和输入，也可能出现混淆。我们称这种现象为指令干扰。在本文中，我们介绍了一个新的基准测试，名为DIM-Bench，专门用于评估LLMs在指令干扰下的表现。该基准测试对实际指令干扰实例进行了分类，并在重写、校对、翻译和风格转换这四项指令任务，以及推理、代码生成、数学推理、偏见检测和问答这五项输入任务上评估了LLMs。我们的实验结果表明，即使是最先进的LLMs也容易受到指令干扰的影响，在这种情况下经常无法准确地遵循用户意图。