LLM2D

摘要

arXiv:2502.03688v1 宣告类型: cross 摘要：最近，DeepSeek 在AI社区内外引起了广泛关注。一个有趣的问题是 DeepSeek 与其他大型语言模型（LLMs）相比的情况如何。大型语言模型可以执行许多任务，在本文中，我们使用预测结果的任务，使用短文本进行比较。我们考虑了两种设置：作者分类设置和引用分类设置。在第一个设置中，目标是确定一段短文本是由人类还是AI撰写的。在第二个设置中，目标是根据文本内容将引用分类为四种类型之一。对于每个实验，我们将 DeepSeek 与四款流行的大型语言模型 Claude、Gemini、GPT 和 Llama 进行比较。我们发现，就分类准确性而言，DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama，但在某些情况下表现不及 Claude。我们还发现，DeepSeek 的运行速度与其他模型相比较慢，但使用成本较低，而 Claude 的成本比其他所有模型都高得多。最后，我们发现就相似性而言，DeepSeek 的输出与 Gemini 和 Claude 的输出最为相似（在所有五款大型语言模型中，Claude 和 Gemini 的输出最为相似）。在这篇论文中，我们还展示了由我们自己收集的完全标注的数据集，并提出了一种食谱，我们可以使用大型语言模型和最近的数据集 MADStat 来生成新的数据集。我们论文中的数据集可以用作未来对大型语言模型研究的基准。