摘要
arXiv:2412.17596v3 公告类型: replace-cross
摘要:虽然大型语言模型(LLMs)在科学任务中展现了显著的能力,如文献分析和实验设计(例如,准确提取论文中的关键发现或生成连贯的实验程序),现有的评价基准主要通过丰富的上下文输入来评估性能。我们引入了LiveIdeaBench,这是一个全面的基准测试,通过使用单关键词提示评估发散思维能力来评估LLMs的科学构想生成能力。该基准测试借鉴Guilford的创造力理论,利用最先进的LLM动态面板,从原创性、可行性、流畅性、灵活性和清晰度五个关键维度评估生成的构想。通过在1,180个关键词覆盖22个科学领域的40多个领先模型中进行广泛的实验,我们发现由我们的基准测试测量的科学构想生成能力,难以用一般智能的标准指标来预测。我们的结果表明,尽管像QwQ-32B-preview这样的模型在一般智能得分上有显著差距,但其创造力表现可与顶级模型claude-3.7-sonnet:thinking媲美。这些发现突出了为科学构想生成专门设计的评估基准的需求,暗示增强LLMs的这些构想生成能力可能需要与提高一般问题解决能力不同的训练策略,这可能使不同阶段的科学过程更广泛地使用定制的AI工具。