LLM2D
DMind基准测试:首个用于Web3领域大语言模型评估的综合基准
DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain
作者: Miracle Master, Rainy Sun, Anya Reese, Joey Ouyang, Alex Chen, Winter Dong, Frank Li, James Yi, Garry Zhao, Tony Ling, Hobert Wong, Lowes Yang
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16116v1

摘要

arXiv:2504.16116v1 Announce Type: cross 摘要:近年来,大型语言模型(LLMs)在广泛的语言处理任务上取得了显著进展。然而,它们在Web3这样专门且快速发展的领域中的有效性仍未得到充分探索。本文介绍了DMind基准,这是一个全新的框架,系统地测试了LLMs在九个关键类别中的表现,涵盖了区块链基础、基础设施、智能合约分析、去中心化金融(DeFi)、去中心化自治组织(DAOs)、不可替代代币(NFTs)、代币经济学、梗概念和安全漏洞。 DMind基准超越了传统的多项选择题形式,通过引入特定领域的主观任务(如智能合约代码审计与修复、链上数据的数值推理以及填空测试),从而捕获现实世界的复杂性并测试模型的适应性。我们在DMind基准上评估了包括ChatGPT、DeepSeek、Claude和Gemini系列在内的十五个流行模型,发现它们在Web3特定推理和应用方面存在性能差距,特别是在新兴领域如代币经济学和梗概念方面尤为明显。即使是最强的模型,在识别细微的安全漏洞和分析复杂的DeFi机制方面也面临重大挑战。为了促进该领域的发展,我们公开发布了我们的基准数据集、评估管道和标注结果,网址为http://www.dmind.ai,为特定领域适应的进展和开发更稳健的Web3增强LLMs提供了宝贵资源。