LLM2D
KL3M 数据项目:大型语言模型的版权清洁训练资源
The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models
作者: Michael J Bommarito II, Jillian Bommarito, Daniel Martin Katz
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07854v1

摘要

arXiv:2504.07854v1 宣布类型: cross 摘要:几乎所有大型语言模型都在具有与版权侵犯和合同违约相关全局不确定性的数据上进行了预训练。这给用户和开发者带来了潜在的风险,因为这些数据的法律状态存在不确定性。KL3M数据项目直接应对这一关键问题,通过引入一个最大程度降低版权或合同违约风险的最大规模综合训练数据管道来解决这个问题。该项目的基础是一个包含超过1.32亿份文件的语料库,这些文件跨越16个不同的来源,并已验证符合本文详细说明的严格的版权和许可协议。我们正在发布整个管道,包括1) 获取和处理这些文件的源代码,2) 原始文档格式附带相关的来源和元数据,3) 标准化格式的提取内容,4) 文档的预分词表示,以及5) 各种中间和后期训练资源,如问答、总结、转换、草拟、分类、预测和对话数据。所有这些资源都在CC-BY条款下在S3、Hugging Face和GitHub上向公众免费提供。我们致力于继续这个项目,以推动更符合道德、法律和可持续性的AI模型开发和使用方法。