LLM2D
AI Idea Bench 2025: AI 研究创意生成基准
AI Idea Bench 2025: AI Research Idea Generation Benchmark
作者: Yansheng Qiu, Haoquan Zhang, Zhaopan Xu, Ming Li, Diping Song, Zheng Wang, Kaipeng Zhang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14191v1

摘要

arXiv:2504.14191v1 宣告类型: 新 摘要: 大规模语言模型(LLMs)已经革新了人机互动,并在新颖想法的生成方面取得了显著成功。然而,目前对想法生成的评估忽视了一些关键因素,如LLMs的知识泄漏、缺乏与真实基准相关的开放式基准、以及受限于提示设计的可行性分析范围有限。这些限制阻碍了揭开突破性研究想法的潜力。在本文中,我们提出了AI Idea Bench 2025,这是一个框架,旨在从多个角度定量评估和比较AI研究领域中由LLMs生成的想法。该框架包括一个全面的3,495篇AI论文及其相关启发性工作的数据集,以及一套稳健的评估方法。该评估系统在两个维度上衡量想法质量:与原始论文的真实内容的一致性以及基于一般参考材料的判断。AI Idea Bench 2025的基准系统将成为评估和比较想法生成技术的宝贵资源,从而促进科学发现的自动化。