LLM2D

摘要

arXiv:2505.07903v1 类型: cross 摘要: 近期大型语言模型（LLMs）的进展不仅展示了它们在推理方面的能力，还展示了它们在调用外部工具，特别是搜索引擎方面的潜力。然而，教会模型判断何时调用搜索引擎何时依赖其内部知识仍然是一项重大挑战。现有的强化学习方法往往会导致冗余的搜索行为，从而导致低效和成本过高。在本文中，我们提出了一种名为SEM的新型后训练强化学习框架，以明确训练LLMs优化搜索使用。通过构建结合MuSiQue和MMLU的数据集，我们创建了情境，使模型必须学会区分可以直接回答的问题和需要外部检索的问题。我们设计了一个结构化的推理模板，并使用组相对策略优化（GRPO）来后训练模型的搜索行为。我们的奖励函数鼓励在不需要时避免不必要的搜索，并在需要时促进有效的检索。实验结果表明，我们的方法显著减少了冗余的搜索操作，同时在多个具有挑战性的基准测试中保持或提高了回答准确性。此框架提高了模型的推理效率，并使其能够谨慎利用外部知识。