LLM2D

摘要

arXiv:2412.17847v2 宣布类型：替换摘要：人工智能的进步主要由训练数据的规模和质量推动。尽管如此，仍然缺乏关于除文本之外的广泛认可的数据集属性的实证分析。在本研究中，我们进行了迄今为止最大规模和首创的多模态纵向审计，从详细的数据来源趋势和使用限制到地理和语言的代表性。我们的手动分析涵盖了1990年至2024年间的近4000个公共数据集，涉及608种语言、798个来源、659个组织和67个国家。我们发现，多模态机器学习应用大多转向了网络爬取、合成以及社交媒体平台，如YouTube等地作为其训练集，自2019年以来，这些来源超过了其他所有来源。其次，在追溯数据集的衍生链时，我们发现虽然只有不到33%的数据集受限制，但广泛使用的文本、语音和视频数据集中超过80%的原始内容带有非商业限制。最后，尽管公共AI训练数据集代表的语言和地理数量在增加，但我们的审计显示，自2013年以来，相对地理和多语言代表性指标的覆盖率并未显著改善。我们相信，广泛审计的范围使我们能够在系统层面实证地考察数据来源、限制和西方中心主义的趋势，而这些问题的可见性对于负责任AI的进步至关重要。作为不断改进数据集透明度和负责任使用的贡献，我们公开了整个多模态审计，使从业者能够跨文本、语音和视频追踪数据的来源。