LLM2D
人类数据来源的经济分析
Economics of Sourcing Human Data
作者: Sebastin Santy, Prasanta Bhattacharya, Manoel Horta Ribeiro, Kelsey Allen, Sewoong Oh
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07732v1

摘要

arXiv:2502.07732v1 类型: cross 摘要:人工智能的进步依赖于人类生成的数据,从注释员市场到更广泛的互联网。然而,大规模语言模型的普遍使用现在威胁到了这些平台上人类生成数据的质量和完整性。我们argue认为,这个问题不仅仅在于过滤AI生成的内容——它揭示了数据收集系统设计中更深层次的问题。现有的系统通常为了速度、规模和效率而牺牲内在的人类动机,导致参与度和数据质量下降。我们建议重新思考数据收集系统的设计,以与贡献者的内在动机相一致,而不是仅仅依赖外部激励,这可以帮助在大规模范围内维持高质量的数据来源,同时保持贡献者的信任和长期参与。