摘要
arXiv:2505.04638v1 通知类型: 新增
摘要: 大型语言模型(LLMs)和大型多模态模型(LMMs)在科学研究中已显示出革命性的潜力,但在生物医药应用中的可靠性和具体贡献仍然缺乏充分的评估。在本研究中,我们介绍了一种名为 \textbf{AR}tificial \textbf{I}ntelligence research assistant for \textbf{E}xpert-involved \textbf{L}earning(ARIEL)的多模态数据集,旨在测试和提升LLMs和LMMs在生物医药研究中的两个关键能力:总结大量科学文本和解释复杂生物医药图表。为了促进严格的评估,我们创建了两套开源数据集,包含生物医药文章和图表,并设计了相关问题。我们系统性地对开放式和封闭式基础模型进行了基准测试,并纳入了由博士级专家主导的人工评估。此外,我们通过针对摘要研究论文的提示工程和微调策略来提高模型性能,并为LMMs应用测试时的计算缩放,以增强其推理能力,从而在准确度上优于人类专家的修正。我们还探讨了使用LMM代理从多种多模态输入中生成科学假设的可能性。总体而言,我们的结果明确了当前基础模型的明显优势和重大局限性,提供了可操作的见解,并指导了未来在生物医药研究中部署大规模语言和多模态模型的发展方向。