摘要
arXiv:2502.08828v2 通知类型: replace-cross
摘要:表格数据是生物信息学、医疗保健和营销等领域中最广泛使用的数据格式之一。随着人工智能朝着以数据为中心的视角发展,提高数据质量对于增强表格数据驱动应用中的模型性能至关重要。本综述重点关注数据驱动的表格数据优化,特别是探索强化学习(RL)和生成方法作为特征选择和特征生成的基本技术,以改进数据空间。特征选择旨在识别并保留最有信息性的属性,而特征生成则构建新的特征以更好地捕捉复杂的数据模式。我们系统地回顾了现有的生成方法在表格数据工程中的应用,分析了它们的最新进展、实际应用及其各自的优势和局限性。本综述强调了基于RL和生成技术如何促进特征工程的自动化和智能化。最后,我们总结了现有的挑战,并讨论了未来的研究方向,旨在为该领域的持续创新提供见解。