LLM2D

摘要

arXiv:2503.21248v1 类型: cross 摘要：大型语言模型（LLMs）在辅助科学研究方面显示出潜力，但由于缺乏专用基准，它们发现高质量研究假设的能力仍待检验。为解决这一问题，我们引入了首个大规模基准，用于评估LLMs，并涵盖了科学研究的近充分子任务：灵感检索、假设组成和假设排序。我们开发了一个自动框架，从涵盖12个学科的科学论文中提取关键组件——研究问题、背景调查、灵感和假设，并通过专家验证确保其准确性。为了防止数据污染，我们仅关注2024年发表的论文，确保其与LLM预训练数据的重叠最少。我们的评估表明，LLMs在检索灵感方面表现出色，这是一个分布外任务，这表明它们能够揭示新的知识关联。这使LLMs成为“研究假设矿”，能够通过大量生成创新性假设来促进自动化科学发现，同时 minimal human intervention（最小的人工干预）最少。