摘要
arXiv:2504.04277v1 Announce Type: cross
摘要:在这个AI热潮的时代,传统的分类方法是否已经无关紧要了?我们证明,在某些多类分类问题上,预测模型整体上优于基于LLM提示的方法。我们根据Thumbtack客户提供的家庭服务项目描述中的文字和图片,构建基于嵌入的softmax模型,以预测每个问题描述相关的专业类别(例如,家庭修理工、卫生间翻新等)。我们随后将这些模型与要求最先进的LLM模型解决相同问题的提示进行比较。我们发现,嵌入方法在准确率、校准性、延迟和经济成本方面均优于提示方法。特别是,嵌入方法比提示方法在准确率上高出49.5%,并且其优越性在纯文本、纯图像和图文问题描述中保持一致。此外,嵌入方法生成了良好的校准概率,我们在部署过程中将其用作置信信号以提供上下文相关的用户体验。相反,提示方法的得分信息量过大。最后,嵌入方法分别在处理图像和文本时比提示方法快14倍和81倍,而在现实部署假设下,它可以快10倍的成本。根据这些结果,我们部署了嵌入方法的一种变体,并通过A/B测试观察到与我们离线分析一致的表现。我们的研究显示,对于能够利用专有数据集的多类分类问题,基于嵌入的方法可能能够获得无可争议的更好结果。因此,研究者、从业者、工程师和商界领导者可以利用我们的研究超越热潮,考虑适合其分类应用场景的适当预测模型。