LLM2D

摘要

arXiv:2504.18376v1 宣布类型: 交叉摘要: 自然语言推理（NLI）是自然语言理解的核心任务，应用于事实核查、问答和信息检索。尽管其重要性不言而喻，但当前的NLI系统严重依赖于带有注释错误和偏差数据集的监督学习，这限制了泛化能力和实际应用。在本文中，我们采用基于强化学习的方法，使用组相对策略优化（GRPO）进行自然语言推理中的因果链（CoT）学习，消除了对标签推理的需求，并使这种训练能够应用于更具挑战性的数据集，如ANLI。我们使用参数高效的技术（LoRA和QLoRA）微调7B、14B和32B语言模型，展示了在标准和对抗性自然语言推理基准上的强大性能。我们的32B AWQ-量化模型在7个对抗性数据集中超过最先进的结果——或在考虑我们复现的情况下在所有数据集上超过它们，内存占用仅为22GB，展示了即使在激进量化下也能保持稳健的推理能力。这项工作为在不牺牲推理质量的情况下构建稳健的NLI系统提供了一个可扩展且实用的框架。