LLM2D
语言代理实现超人类水平的科学知识综合
Language agents achieve superhuman synthesis of scientific knowledge
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13740v1

摘要

语言模型被认为会产生错误信息,其在科学研究中的准确性和可靠性仍存疑问。我们开发了一种详细的人工智能对比方法,用于评估语言模型在真实文献搜索任务中的表现,包括信息检索、总结和矛盾检测。我们的研究发现,专注于提高事实准确性的先进语言模型PaperQA2,在三项现实文献搜索任务中与领域专家的表现相当或更优,且对人类参与者无任何限制(完全互联网访问、搜索工具和时间)。PaperQA2生成的科学主题引用式、维基百科风格的总结,其准确性显著高于当前人类编写的维基百科条目。我们还推出了LitQA2,一个用于科学文献研究的新基准,该基准塑造了PaperQA2的开发,并促使其表现卓越。此外,PaperQA2能够识别科学文献中的矛盾,这是人类面临的挑战性任务。在随机抽样的生物学论文中,它平均每篇发现2.34±1.99个矛盾,其中70%的矛盾得到了人类专家的验证。这些结果表明,语言模型在重要的科学文献任务中现已能超越领域专家。