LLM2D

摘要

arXiv:2504.14191v1 宣告类型: 新摘要: 大规模语言模型(LLMs)已经革新了人机互动，并在新颖想法的生成方面取得了显著成功。然而，目前对想法生成的评估忽视了一些关键因素，如LLMs的知识泄漏、缺乏与真实基准相关的开放式基准、以及受限于提示设计的可行性分析范围有限。这些限制阻碍了揭开突破性研究想法的潜力。在本文中，我们提出了AI Idea Bench 2025，这是一个框架，旨在从多个角度定量评估和比较AI研究领域中由LLMs生成的想法。该框架包括一个全面的3,495篇AI论文及其相关启发性工作的数据集，以及一套稳健的评估方法。该评估系统在两个维度上衡量想法质量：与原始论文的真实内容的一致性以及基于一般参考材料的判断。AI Idea Bench 2025的基准系统将成为评估和比较想法生成技术的宝贵资源，从而促进科学发现的自动化。