摘要
arXiv:2502.07813v1 结构类型: 交叉
摘要: 组合推理能力长期以来被认为是大型语言模型LLMs泛化和智能涌现的关键。然而,尽管存在许多相关的推理基准,但在现有的基准中,LLMs的组合推理能力很少被研究或量化。在本文中,我们介绍了CryptoX,这是一个评估框架,这是首次将现有的基准与密码学相结合,以量化LLMs的组合推理能力。基于CryptoX,我们构建了CryptoBench,它将这些原则整合到几个基准中,用于系统的评估。我们使用CryptoBench对广泛使用的开源和闭源LLMs进行了详细实验,揭示了开源和闭源LLMs之间巨大的差距。我们进一步进行了彻底的机械可解释性实验,揭示了LLMs组合推理的内部机制,包括子问题分解、子问题推理和总结子问题结论。基于CryptoBench的分析,我们强调了独立研究组合推理的价值,并强调了增强LLMs组合推理能力的需求。