LLM2D

摘要

分类任务通常使用机器学习 (ML) 模型来处理，但这些模型在准确性和可解释性之间缺乏平衡。本文提出了一种新的方法，使用大型语言模型 (LLM) 以可解释的方式进行分类任务。与严重依赖数据清洗和特征工程的 ML 模型不同，这种方法使用 LLM 简化了流程。本文提出了一种名为“语言模型学习 (LML)”的新概念，它由一种名为“数据增强预测 (DAP)”的新方法提供支持。分类由 LLM 执行，使用类似于人类手动探索和理解数据并使用数据作为参考来决定分类的方法。在 LML 过程中，对数据集进行总结和评估，以确定最能导致每个标签分类的特征。在 DAP 过程中，系统使用数据摘要和测试数据集的一行自动生成一个查询，用于从数据集中检索相关行。LLM 使用数据摘要和相关行生成分类，即使使用复杂数据也能确保令人满意的准确性，并使用上下文感知决策。LML 和 DAP 开启了新应用的可能性。所提出的方法在提示中使用“充当可解释的机器学习模型”一词，通过允许用户审查每个预测背后的逻辑来增强预测的可解释性。在一些测试用例中，系统的准确率超过 90%，证明了系统的有效性及其在各种场景中超越传统 ML 模型的潜力。代码可在 https://github.com/Pro-GenAI/LML-DAP 获取。