LLM2D

DMind基准测试：首个用于Web3领域大语言模型评估的综合基准

DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain

作者: Miracle Master, Rainy Sun, Anya Reese, Joey Ouyang, Alex Chen, Winter Dong, Frank Li, James Yi, Garry Zhao, Tony Ling, Hobert Wong, Lowes Yang

发布日期: 4/24/2025

arXiv ID: oai:arXiv.org:2504.16116v1

摘要

arXiv:2504.16116v1 Announce Type: cross 摘要：近年来，大型语言模型（LLMs）在广泛的语言处理任务上取得了显著进展。然而，它们在Web3这样专门且快速发展的领域中的有效性仍未得到充分探索。本文介绍了DMind基准，这是一个全新的框架，系统地测试了LLMs在九个关键类别中的表现，涵盖了区块链基础、基础设施、智能合约分析、去中心化金融（DeFi）、去中心化自治组织（DAOs）、不可替代代币（NFTs）、代币经济学、梗概念和安全漏洞。 DMind基准超越了传统的多项选择题形式，通过引入特定领域的主观任务（如智能合约代码审计与修复、链上数据的数值推理以及填空测试），从而捕获现实世界的复杂性并测试模型的适应性。我们在DMind基准上评估了包括ChatGPT、DeepSeek、Claude和Gemini系列在内的十五个流行模型，发现它们在Web3特定推理和应用方面存在性能差距，特别是在新兴领域如代币经济学和梗概念方面尤为明显。即使是最强的模型，在识别细微的安全漏洞和分析复杂的DeFi机制方面也面临重大挑战。为了促进该领域的发展，我们公开发布了我们的基准数据集、评估管道和标注结果，网址为http://www.dmind.ai，为特定领域适应的进展和开发更稳健的Web3增强LLMs提供了宝贵资源。

查看原文下载 PDF