摘要
arXiv:2504.16188v1 类型: cross
摘要: 我们引入了FinNLI,这是一个用于金融自然语言推理(FinNLI)的基准数据集,涵盖了如SEC文件、年度报告和收益电话会议记录等多种金融文本。我们的数据集框架确保了广泛的前提-假设对,同时尽量减少了虚假的相关性。FinNLI 包含 21,304 对,其中包含 3,304 个由金融专家标注的高质量测试实例。评估结果显示,领域转移显著降低了通用领域的 NLI 性能。预训练模型(PLMs)和大型语言模型(LLMs)基线的最高宏F1分数分别为 74.57% 和 78.62%,突显了数据集的难度。令人惊讶的是,指令微调的金融语言模型表现不佳,表明其泛化能力有限。FinNLI 暴露了当前金融推理中大型语言模型的弱点,表明还需要改进的空间。