LLM2D

摘要

arXiv:2504.04277v2 宣布类型: replace-cross 摘要：在这个人工智能 hype 的时代，传统的分类方法是否已经不再相关？我们展示了在多类分类问题中有预训练的预测模型能够整体上超越基于提示的大型语言模型（LLM）框架的情况。我们使用 Thumbtack 客户提供的家庭服务项目描述中的文本和图像，构建基于嵌入的 softmax 模型，预测每个问题描述所对应的专业人士类别（例如，巧手、浴室翻新等）。然后我们将基于嵌入的方法与要求最先进 LLM 模型解决相同问题的提示进行比较。我们发现，在准确度、校准性、延迟和财务成本方面，基于嵌入的方法优于最佳 LLM 提示。具体而言，基于嵌入的方法在准确度上比提示方法高出 49.5%，并且其优势在仅文本、仅图像和文本图像问题描述中都是一致的。此外，它提供了校准良好的概率，我们随后使用这些概率作为信心信号，在部署过程中提供上下文相关的用户体验。相反，提示分数过于不具信息性。最后，嵌入方法在处理图像和文本方面分别快了 14 倍和 81 倍，基于现实的部署假设，它最多可以便宜 10 倍。基于这些结果，我们部署了嵌入方法的一个变体，并通过 A/B 测试观察到性能与我们的离线分析一致。我们的研究显示，对于能够利用专有数据集的多类分类问题，基于嵌入的方法可能能够获得无可争议的更好结果。因此，科学家、实践者、工程师和商界领袖可以利用我们的研究超越 hype，考虑适合自己分类应用场景的适当预测模型。