LLM2D

摘要

大型基础模型和其他深度学习系统的训练过程都基于最小化训练集上的重构误差。因此，它们容易记忆并随后复制训练样本。本文从压缩训练的角度出发，认为模型的权重体现了训练数据的压缩表示。从版权角度来看，这种观点意味着权重可以被视为对可能受保护的一组作品的复制或衍生作品。我们研究了这种基础模型生成输出的版权框架所带来的技术和法律挑战，包括它们对从业人员和研究人员的影响。我们证明，采用以信息为中心的解决问题的方法为解决这些新出现的复杂法律问题提供了一条有希望的途径。