LLM2D
CryptoX : 组合推理评估大规模语言模型
CryptoX : Compositional Reasoning Evaluation of Large Language Models
作者: Jiajun Shi, Chaoren Wei, Liqun Yang, Zekun Moore Wang, Chenghao Yang, Ge Zhang, Stephen Huang, Tao Peng, Jian Yang, Zhoufutu Wen
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07813v1

摘要

arXiv:2502.07813v1 结构类型: 交叉 摘要: 组合推理能力长期以来被认为是大型语言模型LLMs泛化和智能涌现的关键。然而,尽管存在许多相关的推理基准,但在现有的基准中,LLMs的组合推理能力很少被研究或量化。在本文中,我们介绍了CryptoX,这是一个评估框架,这是首次将现有的基准与密码学相结合,以量化LLMs的组合推理能力。基于CryptoX,我们构建了CryptoBench,它将这些原则整合到几个基准中,用于系统的评估。我们使用CryptoBench对广泛使用的开源和闭源LLMs进行了详细实验,揭示了开源和闭源LLMs之间巨大的差距。我们进一步进行了彻底的机械可解释性实验,揭示了LLMs组合推理的内部机制,包括子问题分解、子问题推理和总结子问题结论。基于CryptoBench的分析,我们强调了独立研究组合推理的价值,并强调了增强LLMs组合推理能力的需求。