LLM2D

摘要

arXiv:2504.12427v1 宣告类型: cross 摘要：训练最先进的大型语言模型（LLM）由于计算、硬件、能源和工程需求不断增加而变得越来越昂贵。然而，一个经常被忽视（且鲜少有人支付）的成本是这些模型训练数据背后的人工劳动。每个LLM都是基于难以想象的人类努力构建的：从书籍、学术论文、代码库、社交媒体和其他来源中提取的数十万亿个精心撰写的单词。本文旨在为这种劳动赋予货币价值，并主张生产LLM最昂贵的部分应该是对数据生产者的劳动给予的补偿。为了支持这一观点，我们研究了2016年至2024年间发布的64个LLM，估算从头开始为这些模型创建训练数据集的成本。即使在非常保守的工资率估计下，这些模型训练数据集的成本也是训练模型本身成本的10-1000倍，为LLM提供商带来了巨大的财务负担。面对训练数据价值和其创造者应得补偿之间巨大的差距，我们强调并讨论了可能有助于未来实现更公平实践的研究方向。