摘要
arXiv:2412.17847v2 宣布类型:替换
摘要:人工智能的进步主要由训练数据的规模和质量推动。尽管如此,仍然缺乏关于除文本之外的广泛认可的数据集属性的实证分析。在本研究中,我们进行了迄今为止最大规模和首创的多模态纵向审计,从详细的数据来源趋势和使用限制到地理和语言的代表性。我们的手动分析涵盖了1990年至2024年间的近4000个公共数据集,涉及608种语言、798个来源、659个组织和67个国家。我们发现,多模态机器学习应用大多转向了网络爬取、合成以及社交媒体平台,如YouTube等地作为其训练集,自2019年以来,这些来源超过了其他所有来源。其次,在追溯数据集的衍生链时,我们发现虽然只有不到33%的数据集受限制,但广泛使用的文本、语音和视频数据集中超过80%的原始内容带有非商业限制。最后,尽管公共AI训练数据集代表的语言和地理数量在增加,但我们的审计显示,自2013年以来,相对地理和多语言代表性指标的覆盖率并未显著改善。我们相信,广泛审计的范围使我们能够在系统层面实证地考察数据来源、限制和西方中心主义的趋势,而这些问题的可见性对于负责任AI的进步至关重要。作为不断改进数据集透明度和负责任使用的贡献,我们公开了整个多模态审计,使从业者能够跨文本、语音和视频追踪数据的来源。