摘要
arXiv:2503.13517v2 评测类型: replace-cross
摘要:科学问题解决涉及综合信息并应用专家知识。我们提出了一个名为CURIE的科学长上下文理解、推理和信息提取基准,用于衡量大型语言模型(LLMs)在科学问题解决和协助科学家在实际工作流程中的潜力。该基准引入了十项具有挑战性的任务,共包含580个问题和解决方案配对,由六个学科的专家(材料科学、凝聚态物理学、量子计算、地理空间分析、生物多样性、蛋白质)精心挑选,涵盖了科学中的实验和理论工作流程。我们对CURIE中的各种封闭和开放的LLMs进行了评估,这些任务要求领域专业知识、理解长上下文信息以及多步推理。虽然Gemini Flash 2.0和Claude-3在各个领域中表现出一致的高水平理解,但流行的GPT-4o和command-R+在蛋白质序列任务上表现极差。尽管最佳性能为32%,但所有模型都还有很大的改进空间。我们希望通过CURIE获得的见解能够指导未来科学领域中LLMs的发展。评估代码和数据可在 https://github.com/google/curie 找到。