LLM2D

摘要

arXiv:2503.13517v2 评测类型: replace-cross 摘要：科学问题解决涉及综合信息并应用专家知识。我们提出了一个名为CURIE的科学长上下文理解、推理和信息提取基准，用于衡量大型语言模型（LLMs）在科学问题解决和协助科学家在实际工作流程中的潜力。该基准引入了十项具有挑战性的任务，共包含580个问题和解决方案配对，由六个学科的专家（材料科学、凝聚态物理学、量子计算、地理空间分析、生物多样性、蛋白质）精心挑选，涵盖了科学中的实验和理论工作流程。我们对CURIE中的各种封闭和开放的LLMs进行了评估，这些任务要求领域专业知识、理解长上下文信息以及多步推理。虽然Gemini Flash 2.0和Claude-3在各个领域中表现出一致的高水平理解，但流行的GPT-4o和command-R+在蛋白质序列任务上表现极差。尽管最佳性能为32%，但所有模型都还有很大的改进空间。我们希望通过CURIE获得的见解能够指导未来科学领域中LLMs的发展。评估代码和数据可在 https://github.com/google/curie 找到。