摘要
arXiv:2503.21248v1 类型: cross
摘要:大型语言模型(LLMs)在辅助科学研究方面显示出潜力,但由于缺乏专用基准,它们发现高质量研究假设的能力仍待检验。为解决这一问题,我们引入了首个大规模基准,用于评估LLMs,并涵盖了科学研究的近充分子任务:灵感检索、假设组成和假设排序。我们开发了一个自动框架,从涵盖12个学科的科学论文中提取关键组件——研究问题、背景调查、灵感和假设,并通过专家验证确保其准确性。为了防止数据污染,我们仅关注2024年发表的论文,确保其与LLM预训练数据的重叠最少。我们的评估表明,LLMs在检索灵感方面表现出色,这是一个分布外任务,这表明它们能够揭示新的知识关联。这使LLMs成为“研究假设矿”,能够通过大量生成创新性假设来促进自动化科学发现,同时 minimal human intervention(最小的人工干预)最少。