LLM2D

摘要

探索用于训练大型语言模型（LLMs）的数据源是研究这些模型潜在版权侵权行为的关键方向。尽管这种方法可以识别训练数据中可能使用的受版权保护的材料，但它并不直接衡量侵权风险。最近的研究已转向测试LLMs是否能直接输出受版权保护的内容。针对这一方向，我们研究并评估了LLMs通过提供受版权保护材料的片段信息来生成侵权内容的能力，并尝试使用迭代提示来促使LLMs生成更多侵权内容。具体而言，我们将受版权保护文本的一部分输入LLMs，提示它们完成该文本，然后分析生成内容与原始受版权保护材料之间的重叠。我们的研究结果表明，基于这些部分输入，LLMs确实能够生成与受版权保护材料高度重叠的内容。