摘要
arXiv:2502.08828v1 交叉公告类型:研究论文
摘要:表格数据是生命科学、医疗保健和市场营销等领域中最广泛使用的数据格式之一。随着人工智能向数据为中心的视角发展,提高表格数据的质量对于增强表数据驱动应用的模型性能至关重要。本文综述了数据驱动的表格数据优化,具体探讨了作为改进数据空间基础技术的强化学习(RL)和生成方法在特征选择和特征生成中的应用。特征选择旨在识别和保留最具信息量的属性,而特征生成则构建新的特征以更好地捕捉复杂的数据模式。我们系统地回顾了现有的表格数据工程生成方法,分析了它们的最新进展、实际应用及其各自的优点和局限性。本文强调了基于RL和生成技术如何促进特征工程的自动化和智能化。最后,我们总结了现有的挑战,并讨论了未来的研究方向,旨在提供推动该领域持续创新的见解。