LLM2D

摘要

arXiv:2504.12324v1 交叉类型：cross 摘要：自然语言推理（NLI）是自然语言处理和信息检索中的一个基本任务。尽管已有许多子方向，如句子级NLI、文档级NLI和跨语言NLI，但跨文档跨语言NLI（CDCL-NLI）仍主要未被探索。在本文中，我们提出了一种新的CDCL-NLI范式，将传统NLI能力扩展到多文档、多语言场景。为支持这一任务，我们构建了一个高质量的CDCL-NLI数据集，包含1110个实例，涵盖了26种语言。为了为这一任务建立一个基线，我们还提出了一种创新方法，该方法结合了RST增强图融合和可解释性预测。该方法在RGAT（关系感知图注意力网络）上使用RST（修辞结构理论）进行跨文档上下文建模，并通过基于词汇链的结构感知语义对齐机制进行跨语言理解。对于NLI的可解释性，我们开发了一个基于EDU的归因框架，生成提取性解释。广泛实验表明，我们的方法在性能上表现出色，相对于传统的NLI模型如DocNLI和R2F，以及LLM模型如Llama3和GPT-4o，取得了显著的改进。我们的工作为NLI的研究提供了启示，并将带来跨文档跨语言上下文理解、语义检索和可解释性推理方面的研究兴趣。我们的数据集和代码可在以下链接中获取：\href{https://anonymous.4open.science/r/CDCL-NLI-637E/}{CDCL-NLI审查链接}。