LLM2D

摘要

arXiv:2503.23371v1 Announce Type: cross 摘要：机器学习中处理表格数据的一个关键任务是特征工程。虽然这对提高模型性能至关重要，但需要大量的专业人员和深入的领域知识，使其成为一个劳动密集型的过程。为了解决这一问题，我们提出了一种新型框架，即**FeRG-LLM**（**Fe**ature engineering by **R**eason **G**eneration **L**arge **L**anguage **M**odels），这是一种大型语言模型，旨在自动在80亿参数的规模上进行特征工程。我们构建了两阶段的对话流程，使语言模型能够分析机器学习任务并发现新的特征，展示其链式思维（Chain-of-Thought，CoT）能力。我们使用这些对话流程对Llama 3.1 8B模型进行微调，并结合直接偏好优化（DPO）以获取反馈，从而提高新特征和模型性能的质量。我们的实验结果显示，在大多数数据集上，FeRG-LLM 的表现至少与Llama 3.1 70B相当，同时使用更少的资源并实现更短的推理时间。在分类任务中，它优于其他研究工作，在回归任务中表现良好。此外，由于它不依赖于像GPT-4这样的云托管大型语言模型，无需在生成特征时额外支付API费用，因此可以在本地部署，解决安全性问题。