LLM2D

摘要

arXiv:2502.07813v1 结构类型: 交叉摘要: 组合推理能力长期以来被认为是大型语言模型LLMs泛化和智能涌现的关键。然而，尽管存在许多相关的推理基准，但在现有的基准中，LLMs的组合推理能力很少被研究或量化。在本文中，我们介绍了CryptoX，这是一个评估框架，这是首次将现有的基准与密码学相结合，以量化LLMs的组合推理能力。基于CryptoX，我们构建了CryptoBench，它将这些原则整合到几个基准中，用于系统的评估。我们使用CryptoBench对广泛使用的开源和闭源LLMs进行了详细实验，揭示了开源和闭源LLMs之间巨大的差距。我们进一步进行了彻底的机械可解释性实验，揭示了LLMs组合推理的内部机制，包括子问题分解、子问题推理和总结子问题结论。基于CryptoBench的分析，我们强调了独立研究组合推理的价值，并强调了增强LLMs组合推理能力的需求。