LLM2D

摘要

arXiv:2504.04277v1 Announce Type: cross 摘要：在这个AI热潮的时代，传统的分类方法是否已经无关紧要了？我们证明，在某些多类分类问题上，预测模型整体上优于基于LLM提示的方法。我们根据Thumbtack客户提供的家庭服务项目描述中的文字和图片，构建基于嵌入的softmax模型，以预测每个问题描述相关的专业类别（例如，家庭修理工、卫生间翻新等）。我们随后将这些模型与要求最先进的LLM模型解决相同问题的提示进行比较。我们发现，嵌入方法在准确率、校准性、延迟和经济成本方面均优于提示方法。特别是，嵌入方法比提示方法在准确率上高出49.5%，并且其优越性在纯文本、纯图像和图文问题描述中保持一致。此外，嵌入方法生成了良好的校准概率，我们在部署过程中将其用作置信信号以提供上下文相关的用户体验。相反，提示方法的得分信息量过大。最后，嵌入方法分别在处理图像和文本时比提示方法快14倍和81倍，而在现实部署假设下，它可以快10倍的成本。根据这些结果，我们部署了嵌入方法的一种变体，并通过A/B测试观察到与我们离线分析一致的表现。我们的研究显示，对于能够利用专有数据集的多类分类问题，基于嵌入的方法可能能够获得无可争议的更好结果。因此，研究者、从业者、工程师和商界领导者可以利用我们的研究超越热潮，考虑适合其分类应用场景的适当预测模型。