LLM2D

摘要

arXiv:2503.20394v1 类型: cross 摘要：特征变换对于经典机器学习至关重要，旨在从数据为中心的角度生成特征组合以增强下游任务的性能。当前的方法，如手动专家驱动过程、迭代反馈技术以及探索生成策略，在通过最小化人工参与来自动化此类数据工程工作流方面显示出潜力。然而，在这些框架中依然存在三个挑战：（1）它主要依赖于下游任务性能指标，因为评估耗时，特别是在处理大规模数据集时。（2）随机探索结束后，特征组合的多样性难以得到保证。（3）罕见的重要变换导致稀疏的有价值反馈，阻碍了学习过程或导致效果较差的结果。为应对这些挑战，我们介绍了一个名为FastFT的创新框架，该框架利用了三种先进的策略。我们首先通过性能预测器将特征变换评估与生成的数据集结果分离。为了解决稀疏奖励的问题，我们开发了一种评估生成变换序列新颖性的方法。将新颖性纳入奖励函数中，加速了模型对有效变换的探索，从而提高了搜索效率。此外，我们将新颖性和性能结合起来，创建了一个优先级记忆缓冲区，确保在探索过程中有效地重新访问重要经验。我们广泛的经验实验验证了我们提出框架的性能、效率和可追溯性，展示了它在处理复杂特征变换任务方面的优越性。