LLM2D
超越 hype:嵌入dings vs. 提示技术在多类分类任务中的比较
Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks
作者: Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04277v1

摘要

arXiv:2504.04277v1 Announce Type: cross 摘要:在这个AI热潮的时代,传统的分类方法是否已经无关紧要了?我们证明,在某些多类分类问题上,预测模型整体上优于基于LLM提示的方法。我们根据Thumbtack客户提供的家庭服务项目描述中的文字和图片,构建基于嵌入的softmax模型,以预测每个问题描述相关的专业类别(例如,家庭修理工、卫生间翻新等)。我们随后将这些模型与要求最先进的LLM模型解决相同问题的提示进行比较。我们发现,嵌入方法在准确率、校准性、延迟和经济成本方面均优于提示方法。特别是,嵌入方法比提示方法在准确率上高出49.5%,并且其优越性在纯文本、纯图像和图文问题描述中保持一致。此外,嵌入方法生成了良好的校准概率,我们在部署过程中将其用作置信信号以提供上下文相关的用户体验。相反,提示方法的得分信息量过大。最后,嵌入方法分别在处理图像和文本时比提示方法快14倍和81倍,而在现实部署假设下,它可以快10倍的成本。根据这些结果,我们部署了嵌入方法的一种变体,并通过A/B测试观察到与我们离线分析一致的表现。我们的研究显示,对于能够利用专有数据集的多类分类问题,基于嵌入的方法可能能够获得无可争议的更好结果。因此,研究者、从业者、工程师和商界领导者可以利用我们的研究超越热潮,考虑适合其分类应用场景的适当预测模型。