LLM2D
项目亚历山大:通过大语言模型释放科学知识免受版权束缚之路
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
作者: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci, Ludwig Schmidt, Robert Kaczmarczyk, S\"oren Auer, Jenia Jitsev, Matthias Bethge
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2502.19413v2

摘要

arXiv:2502.19413v2 宣告类型: 替换-交叉 摘要:付费墙、许可证和版权规则常常限制科学知识的广泛传播和再利用。我们认为,从学术文本中提取科学知识既在法律上也是技术上可行的。当前的方法,如文本嵌入,难以可靠地保留事实内容,而简单的改写可能在法律上站不住脚。我们提出一种新想法供社区采纳:使用大语言模型(LLMs)将学术文档转化为知识保存但风格无关的表现形式,我们称之为知识单元(Knowledge Units)。这些单元使用结构化数据捕捉实体、属性和关系,而不包含风格化内容。我们提供了证据表明(1)知识单元形成了基于德国版权法和美国合理使用原则的法律上可行的知识共享框架;(2)测量结果显示,知识单元保留了原始文本中约95%的事实知识,通过四个研究领域的选择题(MCQ)测试来评估保留的知识。从版权中释放科学知识为科学研究和教育带来了变革性的好处,允许语言模型重新使用受版权保护文本中的重要事实。为了支持这一点,我们分享了将研究文档转换为知识单元的开源工具。总体而言,我们的研究工作提出了在尊重版权的同时,实现科学知识普及的可能性。