LLM2D
LawGPT:知识引导的数据生成及其在法律LLM中的应用
LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM
作者: Zhi Zhou, Kun-Yang Yu, Shi-Yu Tian, Jiang-Xin Shi, Xiao-Wen Yang, Pengxiao Song, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06572v1

摘要

arXiv:2502.06572v1 宣布类型: cross 摘要: 商用和开源的大语言模型(LLMs)在各种自然语言处理任务中展现了卓越的能力。然而,它们在法律推理任务中面临重大限制。商用模型引入了数据隐私风险和高昂的推理成本,而开源模型则因为缺乏足够的法律领域训练数据而表现不佳。为了克服这些限制,我们研究了法律推理的数据生成问题,以通过商用LLMs改进开源LLMs的法律推理性能。这是一条充满挑战的道路,因为商用LLMs缺乏法律知识,并且生成数据的验证难度较大。我们提出了一种名为KgDG的法律推理导向的数据生成框架。该框架能够利用法律知识增强生成的多样性,并引入了验证过程以确保生成数据的质量。此外,我们扩展了生成的数据集,以进一步提升LLM的推理能力。使用KgDG,我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们的训练模型LawGPT在现有专门针对法律领域的LLM中表现更优,并且性能可与商用LLM媲美,证明了KgDG和LawGPT的有效性。我们的相关代码和资源已公开发布在https://anonymous.4open.science/r/KgDG-45F5 。