LLM2D

摘要

本文介绍了一种使用大型语言模型 (LLM) 进行分类任务的新方法，而分类任务通常由机器学习 (ML) 模型处理。与依赖于数据清洗和特征工程的 ML 模型不同，此方法利用 LLM 简化了流程。本文提出了一种名为“语言模型学习 (LML)”的新概念，它由一种名为“数据增强预测 (DAP)”的新方法驱动。分类由 LLM 执行，使用的方法类似于人类手动探索和理解数据，并使用数据作为参考来决定分类。对训练数据进行总结和评估，以确定导致对每个标签进行分类的最重要的特征。在 DAP 的过程中，系统使用数据摘要自动创建查询，用于从数据集中检索相关行。LLM 使用数据摘要和相关行生成分类，即使面对复杂数据也能确保令人满意的准确性。DAP 中使用数据摘要和类似数据可确保上下文感知的决策。该方法在提示中使用“充当可解释的机器学习模型”一词，通过允许用户查看每个预测背后的逻辑来增强预测的可解释性。在一些测试案例中，系统的准确率超过了 90%，证明了系统的有效性及其在各种场景中超越传统 ML 模型的潜力。代码可在 https://github.com/Pro-GenAI/LML-DAP 获取。