LLM2D

摘要

arXiv:2504.16188v1 类型: cross 摘要: 我们引入了FinNLI，这是一个用于金融自然语言推理(FinNLI)的基准数据集，涵盖了如SEC文件、年度报告和收益电话会议记录等多种金融文本。我们的数据集框架确保了广泛的前提-假设对，同时尽量减少了虚假的相关性。FinNLI 包含 21,304 对，其中包含 3,304 个由金融专家标注的高质量测试实例。评估结果显示，领域转移显著降低了通用领域的 NLI 性能。预训练模型(PLMs)和大型语言模型(LLMs)基线的最高宏F1分数分别为 74.57% 和 78.62%，突显了数据集的难度。令人惊讶的是，指令微调的金融语言模型表现不佳，表明其泛化能力有限。FinNLI 暴露了当前金融推理中大型语言模型的弱点，表明还需要改进的空间。