摘要
arXiv:2406.10940v2 通知类型: 替换-交叉
摘要:在当今以数据驱动的环境中,确保数据质量(DQ)对于从庞大的数据仓库中提取可行的洞察至关重要。本研究旨在探讨在数据仓库中自动化数据质量管理的可能性,数据仓库是大型组织常用的存储库。通过系统性地审查市场上和学术文献中现有的DQ工具,研究评估了它们自动检测和实施数据质量规则的能力。审查了来自各种来源的151种工具,结果表明,大多数现有工具专注于特定领域的数据库中的数据清理和修复,而不是数据仓库。只有少数工具,具体而言是十种工具,能够检测数据质量规则,更不用说在数据仓库中实施这些规则了。这些发现突显了市场上和学术研究中在数据仓库环境中增强AI辅助的数据质量规则检测方面的显著差距。本文倡导在此领域进一步发展,以提高数据质量管理流程的效率,减少人力工作量并降低成本。研究突出了自动数据质量规则检测高级工具的必要性,为数据仓库环境中数据质量管理的改善实践铺平了道路。该研究可以指导组织选择最符合其需求的数据质量工具。