LLM2D

摘要

arXiv:2502.06572v1 宣布类型: cross 摘要: 商用和开源的大语言模型（LLMs）在各种自然语言处理任务中展现了卓越的能力。然而，它们在法律推理任务中面临重大限制。商用模型引入了数据隐私风险和高昂的推理成本，而开源模型则因为缺乏足够的法律领域训练数据而表现不佳。为了克服这些限制，我们研究了法律推理的数据生成问题，以通过商用LLMs改进开源LLMs的法律推理性能。这是一条充满挑战的道路，因为商用LLMs缺乏法律知识，并且生成数据的验证难度较大。我们提出了一种名为KgDG的法律推理导向的数据生成框架。该框架能够利用法律知识增强生成的多样性，并引入了验证过程以确保生成数据的质量。此外，我们扩展了生成的数据集，以进一步提升LLM的推理能力。使用KgDG，我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们的训练模型LawGPT在现有专门针对法律领域的LLM中表现更优，并且性能可与商用LLM媲美，证明了KgDG和LawGPT的有效性。我们的相关代码和资源已公开发布在https://anonymous.4open.science/r/KgDG-45F5 。