LLM2D

摘要

语言模型被认为会产生错误信息，其在科学研究中的准确性和可靠性仍存疑问。我们开发了一种详细的人工智能对比方法，用于评估语言模型在真实文献搜索任务中的表现，包括信息检索、总结和矛盾检测。我们的研究发现，专注于提高事实准确性的先进语言模型PaperQA2，在三项现实文献搜索任务中与领域专家的表现相当或更优，且对人类参与者无任何限制（完全互联网访问、搜索工具和时间）。PaperQA2生成的科学主题引用式、维基百科风格的总结，其准确性显著高于当前人类编写的维基百科条目。我们还推出了LitQA2，一个用于科学文献研究的新基准，该基准塑造了PaperQA2的开发，并促使其表现卓越。此外，PaperQA2能够识别科学文献中的矛盾，这是人类面临的挑战性任务。在随机抽样的生物学论文中，它平均每篇发现2.34±1.99个矛盾，其中70%的矛盾得到了人类专家的验证。这些结果表明，语言模型在重要的科学文献任务中现已能超越领域专家。