LLM2D
DeepSeek与其他大型语言模型的比较
A Comparison of DeepSeek and Other LLMs
作者: Tianchen Gao, Jiashun Jin, Zheng Tracy Ke, Gabriel Moryoussef
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03688v1

摘要

arXiv:2502.03688v1 宣告类型: cross 摘要:最近,DeepSeek 在AI社区内外引起了广泛关注。一个有趣的问题是 DeepSeek 与其他大型语言模型(LLMs)相比的情况如何。大型语言模型可以执行许多任务,在本文中,我们使用预测结果的任务,使用短文本进行比较。我们考虑了两种设置:作者分类设置和引用分类设置。在第一个设置中,目标是确定一段短文本是由人类还是AI撰写的。在第二个设置中,目标是根据文本内容将引用分类为四种类型之一。对于每个实验,我们将 DeepSeek 与四款流行的大型语言模型 Claude、Gemini、GPT 和 Llama 进行比较。我们发现,就分类准确性而言,DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama,但在某些情况下表现不及 Claude。我们还发现,DeepSeek 的运行速度与其他模型相比较慢,但使用成本较低,而 Claude 的成本比其他所有模型都高得多。最后,我们发现就相似性而言,DeepSeek 的输出与 Gemini 和 Claude 的输出最为相似(在所有五款大型语言模型中,Claude 和 Gemini 的输出最为相似)。 在这篇论文中,我们还展示了由我们自己收集的完全标注的数据集,并提出了一种食谱,我们可以使用大型语言模型和最近的数据集 MADStat 来生成新的数据集。我们论文中的数据集可以用作未来对大型语言模型研究的基准。