LLM2D

摘要

arXiv:2504.04945v1 交叉类型：法律推理摘要：法律推理任务对大型语言模型（LLMs）构成了独特的挑战，因为它们涉及特定领域的知识和推理过程的复杂性。本文研究了较小的语言模型（Llama 2 7B和Llama 3 8B）如何通过使用1,514个多项选择法考试（MBE）问题的有限数据集进行微调，以提高法律问题回答的准确性。我们使用JD Advising提供的2022年MBE问题对该模型进行评估，这是“GPT-4通过法考”研究中使用的相同数据集。我们的方法论包括在7个法律领域中每个领域收集约200个问题。我们使用Llama 3（70B）蒸馏数据集，将其解释转换为结构化的IRAC（问题、规则、应用、结论）格式，作为一种指导性推理过程，以观察其是否能比未经蒸馏的数据集获得更好的性能。我们将未微调的模型与其在不同领域样本大小下进行监督微调（SFT）的对进行比较，以研究准确性和提示遵守方面的效果。我们还分析了监督微调后的选项选择偏差及其缓解措施。此外，我们综合评估了多个变量：提示类型（少量示例 vs 零样本），答案排序（首先选择选项 vs 首先生成解释），响应格式（编号列表 vs Markdown vs JSON），以及不同的解码温度。我们的发现表明，特定领域的SFT有助于某些模型配置在有限的计算资源和相对较小数据集的情况下接近人类基线性能。我们发布了收集的SFT数据集以及针对MBE性能优化的一系列监督微调（SFT）适配器。这为在较小的LLMs中实现有效的法律问题回答设定了实用的资源下界。