LLM2D

摘要

生成式人工智能技术的快速发展引发了重大的版权问题，导致众多针对人工智能开发者提起的诉讼。虽然已经研究了多种减轻版权问题的技术，但仍然存在重大风险。本文提出了一种泛化方法，该方法修改生成模型的输出，使其更加通用，并降低侵犯版权的可能性。为了实现这一点，我们引入了一个指标来量化数据的原创性水平，该指标与法律框架相一致。可以通过从生成模型中抽取样本估计该指标，然后将其用于泛化过程。作为实际实现，我们引入了 PREGen，它将我们的泛化方法与现有缓解技术相结合。实验表明，我们的泛化方法成功地修改了文本到图像生成模型的输出，使其生成更通用的、符合版权的图像。与现有方法相比，当使用受版权保护的角色的名称作为提示时，PREGen 将生成受版权保护的角色的可能性降低了一半以上，显着提高了性能。此外，虽然生成模型即使在提示中未直接提及受版权保护的角色的名称时也能生成受版权保护的角色，但 PREGen 在这些情况下几乎完全阻止了此类角色的生成。