LLM2D

摘要

arXiv:2502.06572v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs），无论是专有的还是开源的，在各种自然语言处理任务中都展示出了卓越的能力。然而，它们在法律推理任务中面临显著的局限性。专有模型引入了数据隐私风险和高昂的推理成本，而开源模型则由于缺乏足够的法律领域训练数据而表现不佳。为了解决这些问题，我们研究了法律推理的数据生成方法，以借助专有模型来提高开源LLMs的法律推理性能。由于专有模型缺乏法律知识且生成的数据难以验证，这对数据生成提出了挑战。我们提出了一种名为KgDG的知识导向型数据生成框架，用于法律推理。我们的框架能够利用法律知识来增强生成的多样性，并引入了一种润色和验证过程，以确保生成数据的质量。此外，我们将生成的数据集扩展，进一步增强LLM的推理能力。使用KgDG，我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们训练的模型LawGPT在法律特定LLM中表现出色，并且其性能与专有LLM相当，这证明了KgDG和LawGPT的有效性。我们的代码和资源已在https://github.com/LAMDASZ-ML/Knowledge-Guide-Data-Generation 公开。