LLM2D

摘要

arXiv:2502.08828v2 通知类型: replace-cross 摘要：表格数据是生物信息学、医疗保健和营销等领域中最广泛使用的数据格式之一。随着人工智能朝着以数据为中心的视角发展，提高数据质量对于增强表格数据驱动应用中的模型性能至关重要。本综述重点关注数据驱动的表格数据优化，特别是探索强化学习（RL）和生成方法作为特征选择和特征生成的基本技术，以改进数据空间。特征选择旨在识别并保留最有信息性的属性，而特征生成则构建新的特征以更好地捕捉复杂的数据模式。我们系统地回顾了现有的生成方法在表格数据工程中的应用，分析了它们的最新进展、实际应用及其各自的优势和局限性。本综述强调了基于RL和生成技术如何促进特征工程的自动化和智能化。最后，我们总结了现有的挑战，并讨论了未来的研究方向，旨在为该领域的持续创新提供见解。