LLM2D
Home
Arxiv
返回列表
万亿词元 (1TT) 平台:大型语言模型中高效数据共享与补偿的新框架
1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Models
作者:
Chanjun Park, Hyunsoo Ha, Jihoo Kim, Yungi Kim, Dahyun Kim, Sukyung Lee, Seonghoon Yang
发布日期:
10/1/2024
arXiv ID:
oai:arXiv.org:2409.20149v1
摘要
本文提出了一个名为“万亿令牌平台”(1TT 平台)的新框架,旨在促进数据共享,并采用透明且公平的利润分成机制。该平台促进了数据贡献者(提供原本未公开的数据集)和数据消费者(利用这些数据集来增强其自身服务)之间的合作。数据贡献者以货币形式获得补偿,从数据消费者服务的收入中获得分成。数据消费者承诺根据预定义的利润分成安排,与贡献者分享一部分收入。通过将透明的利润分成模式纳入其中,以激励大规模数据共享,1TT 平台创造了一个协作环境,推动 NLP 和 LLM 技术的进步。
查看原文
下载 PDF