LLM2D

摘要

大型语言模型（LLMs）的最新进展已经导致了人工智能在自然语言处理（NLP）任务（如文本理解和推理）方面超越人类的论断。本研究通过引入 CAIMIRA，一个基于项目反应理论（IRT）的新框架，来调查这些断言，该框架能够对问答（QA）代理（人类和人工智能系统）的解决问题能力进行定量评估和比较。通过分析来自约 70 个人工智能系统和 155 个人的超过 300,000 个对数千个测验问题的回答，CAIMIRA 揭示了知识领域和推理能力中不同的熟练程度模式。人类在知识基础的溯因推理和概念推理方面优于人工智能系统，而 GPT-4 和 LLaMA 等最先进的 LLM 在目标信息检索和基于事实的推理方面表现出优越的性能，尤其是在信息差距明确且可以通过模式匹配或数据检索解决的情况下。这些发现强调了未来 QA 任务需要关注挑战更高阶推理和科学思维的问题，同时还需要对语言进行细致的解释和跨上下文知识应用，从而推动人工智能的发展，使其在现实世界中的问题解决方面更好地模拟或补充人类认知能力。