LLM2D
数据为中心的AI综述:从强化学习和生成AI视角的表数据学习
A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective
作者: Wangyang Ying, Cong Wei, Nanxu Gong, Xinyuan Wang, Haoyue Bai, Arun Vignesh Malarkkan, Sixun Dong, Dongjie Wang, Denghui Zhang, Yanjie Fu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.08828v2

摘要

arXiv:2502.08828v2 通知类型: replace-cross 摘要:表格数据是生物信息学、医疗保健和营销等领域中最广泛使用的数据格式之一。随着人工智能朝着以数据为中心的视角发展,提高数据质量对于增强表格数据驱动应用中的模型性能至关重要。本综述重点关注数据驱动的表格数据优化,特别是探索强化学习(RL)和生成方法作为特征选择和特征生成的基本技术,以改进数据空间。特征选择旨在识别并保留最有信息性的属性,而特征生成则构建新的特征以更好地捕捉复杂的数据模式。我们系统地回顾了现有的生成方法在表格数据工程中的应用,分析了它们的最新进展、实际应用及其各自的优势和局限性。本综述强调了基于RL和生成技术如何促进特征工程的自动化和智能化。最后,我们总结了现有的挑战,并讨论了未来的研究方向,旨在为该领域的持续创新提供见解。