LLM2D

摘要

人工智能（AI）应用严重依赖于数据。数据质量差会导致AI模型不准确且无效，可能导致使用错误或不安全。评估数据准备情况是提高数据在AI中使用质量和适用性的关键步骤。人们已经投入研发努力来提高数据质量。然而，用于评估用于AI训练的数据准备情况的标准化指标仍在发展中。在本研究中，我们对用于验证AI训练数据准备情况的指标进行了全面调查。这项调查考察了ACM数字图书馆、IEEE Xplore、Nature、Springer和Science Direct等期刊发表的140多篇论文以及知名AI专家发表的在线文章。本调查旨在为结构化和非结构化数据集提出AI数据准备情况（DRAI）指标的分类法。我们预计，这种分类法将导致DRAI指标的新标准，这些标准将用于提高AI训练和推理的质量、准确性和公平性。