LLM2D
CURIE: 多任务科学长文本理解与推理评估
CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning
作者: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Ekin Dogus Cubuk, Muratahan Aykol, Amil Merchant, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2503.13517v2

摘要

arXiv:2503.13517v2 评测类型: replace-cross 摘要:科学问题解决涉及综合信息并应用专家知识。我们提出了一个名为CURIE的科学长上下文理解、推理和信息提取基准,用于衡量大型语言模型(LLMs)在科学问题解决和协助科学家在实际工作流程中的潜力。该基准引入了十项具有挑战性的任务,共包含580个问题和解决方案配对,由六个学科的专家(材料科学、凝聚态物理学、量子计算、地理空间分析、生物多样性、蛋白质)精心挑选,涵盖了科学中的实验和理论工作流程。我们对CURIE中的各种封闭和开放的LLMs进行了评估,这些任务要求领域专业知识、理解长上下文信息以及多步推理。虽然Gemini Flash 2.0和Claude-3在各个领域中表现出一致的高水平理解,但流行的GPT-4o和command-R+在蛋白质序列任务上表现极差。尽管最佳性能为32%,但所有模型都还有很大的改进空间。我们希望通过CURIE获得的见解能够指导未来科学领域中LLMs的发展。评估代码和数据可在 https://github.com/google/curie 找到。