LLM2D
扩展自然语言推理的边界
Pushing the boundary on Natural Language Inference
作者: Pablo Miralles-Gonz\'alez, Javier Huertas-Tato, Alejandro Mart\'in, David Camacho
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18376v1

摘要

arXiv:2504.18376v1 宣布类型: 交叉 摘要: 自然语言推理(NLI)是自然语言理解的核心任务,应用于事实核查、问答和信息检索。尽管其重要性不言而喻,但当前的NLI系统严重依赖于带有注释错误和偏差数据集的监督学习,这限制了泛化能力和实际应用。在本文中,我们采用基于强化学习的方法,使用组相对策略优化(GRPO)进行自然语言推理中的因果链(CoT)学习,消除了对标签推理的需求,并使这种训练能够应用于更具挑战性的数据集,如ANLI。我们使用参数高效的技术(LoRA和QLoRA)微调7B、14B和32B语言模型,展示了在标准和对抗性自然语言推理基准上的强大性能。我们的32B AWQ-量化模型在7个对抗性数据集中超过最先进的结果——或在考虑我们复现的情况下在所有数据集上超过它们,内存占用仅为22GB,展示了即使在激进量化下也能保持稳健的推理能力。这项工作为在不牺牲推理质量的情况下构建稳健的NLI系统提供了一个可扩展且实用的框架。