摘要
arXiv:2502.06572v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs),无论是专有的还是开源的,在各种自然语言处理任务中都展示出了卓越的能力。然而,它们在法律推理任务中面临显著的局限性。专有模型引入了数据隐私风险和高昂的推理成本,而开源模型则由于缺乏足够的法律领域训练数据而表现不佳。为了解决这些问题,我们研究了法律推理的数据生成方法,以借助专有模型来提高开源LLMs的法律推理性能。由于专有模型缺乏法律知识且生成的数据难以验证,这对数据生成提出了挑战。我们提出了一种名为KgDG的知识导向型数据生成框架,用于法律推理。我们的框架能够利用法律知识来增强生成的多样性,并引入了一种润色和验证过程,以确保生成数据的质量。此外,我们将生成的数据集扩展,进一步增强LLM的推理能力。使用KgDG,我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们训练的模型LawGPT在法律特定LLM中表现出色,并且其性能与专有LLM相当,这证明了KgDG和LawGPT的有效性。我们的代码和资源已在https://github.com/LAMDASZ-ML/Knowledge-Guide-Data-Generation 公开。