LLM2D
跨越文本、speech和视频的数据溯源差距
Bridging the Data Provenance Gap Across Text, Speech and Video
作者: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Naana Obeng-Marnu, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2412.17847v2

摘要

arXiv:2412.17847v2 宣布类型:替换 摘要:人工智能的进步主要由训练数据的规模和质量推动。尽管如此,仍然缺乏关于除文本之外的广泛认可的数据集属性的实证分析。在本研究中,我们进行了迄今为止最大规模和首创的多模态纵向审计,从详细的数据来源趋势和使用限制到地理和语言的代表性。我们的手动分析涵盖了1990年至2024年间的近4000个公共数据集,涉及608种语言、798个来源、659个组织和67个国家。我们发现,多模态机器学习应用大多转向了网络爬取、合成以及社交媒体平台,如YouTube等地作为其训练集,自2019年以来,这些来源超过了其他所有来源。其次,在追溯数据集的衍生链时,我们发现虽然只有不到33%的数据集受限制,但广泛使用的文本、语音和视频数据集中超过80%的原始内容带有非商业限制。最后,尽管公共AI训练数据集代表的语言和地理数量在增加,但我们的审计显示,自2013年以来,相对地理和多语言代表性指标的覆盖率并未显著改善。我们相信,广泛审计的范围使我们能够在系统层面实证地考察数据来源、限制和西方中心主义的趋势,而这些问题的可见性对于负责任AI的进步至关重要。作为不断改进数据集透明度和负责任使用的贡献,我们公开了整个多模态审计,使从业者能够跨文本、语音和视频追踪数据的来源。