摘要
arXiv:2502.09673v1 宣告类型: cross
摘要: 大型语言模型(LLMs)在各种自然语言处理(NLP)基准测试中取得了显著的成功。然而,在需要细致推理和精确决策的复杂任务中,仅仅是语言能力的提高是不够的——LLMs 必须进行推理,即逻辑思考、借鉴过去的经历,并综合信息以得出结论并采取行动。为了提高推理能力,已经广泛探索了诸如提示和微调等方法。尽管这些方法在推理方面带来了明显的改善,但它们对LLM安全性的影响仍然不太为人所了解。在这项工作中,我们研究了推理与安全性在LLMs中的相互作用。我们强调推理能力提升导致的隐含安全性风险,揭示了一些之前未被注意到的脆弱性。同时,我们探索了如何利用推理本身来增强安全性,发现了潜在的缓解策略。通过对由推理驱动的LLM安全性方面的风险和机遇的分析,我们的研究为开发在实际部署中不仅更具能力而且更具信赖性的模型提供了宝贵的见解。