LLM2D
位置:LLM 中最昂贵的部分应该是其训练数据
Position: The Most Expensive Part of an LLM should be its Training Data
作者: Nikhil Kandpal, Colin Raffel
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12427v1

摘要

arXiv:2504.12427v1 宣告类型: cross 摘要:训练最先进的大型语言模型(LLM)由于计算、硬件、能源和工程需求不断增加而变得越来越昂贵。然而,一个经常被忽视(且鲜少有人支付)的成本是这些模型训练数据背后的人工劳动。每个LLM都是基于难以想象的人类努力构建的:从书籍、学术论文、代码库、社交媒体和其他来源中提取的数十万亿个精心撰写的单词。本文旨在为这种劳动赋予货币价值,并主张生产LLM最昂贵的部分应该是对数据生产者的劳动给予的补偿。为了支持这一观点,我们研究了2016年至2024年间发布的64个LLM,估算从头开始为这些模型创建训练数据集的成本。即使在非常保守的工资率估计下,这些模型训练数据集的成本也是训练模型本身成本的10-1000倍,为LLM提供商带来了巨大的财务负担。面对训练数据价值和其创造者应得补偿之间巨大的差距,我们强调并讨论了可能有助于未来实现更公平实践的研究方向。