摘要
arXiv:2503.13222v2 通知类型: replace-cross
摘要:尽管在提高大语言模型(LLMs)的指令遵循能力方面取得了显著成就,但处理多个潜在交织或冲突的指令的能力仍然是一个重大挑战。现实世界中的场景经常要求随着时间的推移在多个指令之间保持一致性,例如保密隐私、个人偏好和优先级,这些场景要求具备在指令相互交叠或冲突时巧妙整合多个回合并仔细平衡竞争目标的能力。本研究对LLMs在处理多个指令回合方面的能力进行了系统的调查,涵盖了三个难度级别:(1) 从指令中检索信息,(2) 跟踪和在回合之间进行推理,以及(3) 解决指令之间的冲突。我们通过循环人性途径构建了包含约1100个高质量的多回合对话的MultiTurnInstruct,最终形成了九个能力类别,包括静态和动态、推理和多任务处理。我们的研究发现揭示了不同能力之间的有趣权衡。虽然GPT模型在记忆方面表现出色,但在需要选择性信息保留的隐私保护任务中,其效果有所下降。更大的模型展示了更强的推理能力,但在解决冲突指令方面仍然面临挑战。重要的是,这些性能差距不仅仅可以归因于信息的丢失,因为模型在记忆任务上的BLEU分数很高,但其注意力机制无法有效地整合多个相关的指令。这些发现强调了在涉及多回合指令的复杂现实任务中需要改进的关键领域。