LLM2D
通过部分信息探针测量大型语言模型的版权风险
Measuring Copyright Risks of Large Language Model via Partial Information Probing
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13831v1

摘要

探索用于训练大型语言模型(LLMs)的数据源是研究这些模型潜在版权侵权行为的关键方向。尽管这种方法可以识别训练数据中可能使用的受版权保护的材料,但它并不直接衡量侵权风险。最近的研究已转向测试LLMs是否能直接输出受版权保护的内容。针对这一方向,我们研究并评估了LLMs通过提供受版权保护材料的片段信息来生成侵权内容的能力,并尝试使用迭代提示来促使LLMs生成更多侵权内容。具体而言,我们将受版权保护文本的一部分输入LLMs,提示它们完成该文本,然后分析生成内容与原始受版权保护材料之间的重叠。我们的研究结果表明,基于这些部分输入,LLMs确实能够生成与受版权保护材料高度重叠的内容。