LLM2D
防御性思维链:结构化推理在大型语言模型中引出对抗引用污染的鲁棒性
Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption
作者: Wenxiao Wang, Parsa Hosseini, Soheil Feizi
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20769v1

摘要

arXiv:2504.20769v1 交叉类型: 摘要:链式思考提示在增强大语言模型的推理能力方面取得了巨大成功。在本文中,我们探讨了如何利用这些增强的推理能力来提高大语言模型在非必然以推理为核心的任务中的鲁棒性。特别是,我们展示了如何通过一种简单的称为链式防御思考的方法,即只提供少量具有结构化和防御性推理的范例作为示范,使大范围的大语言模型在参考被篡改的情况下显著提高鲁棒性。实验证明,这种方法的改进是惊人的,特别是考虑到该方法的简单性和适用性。例如,在自然问题任务中,当每提供10个参考中有1个被提示注入攻击篡改时,标准提示下的GPT-4o的准确率降到了60%,而使用链式防御思考提示的GPT-4o则保持了50%的准确率。