LLM2D

摘要

arXiv:2504.19093v1 交叉类型摘要：大型语言模型（LLMs）展示了令人瞩目的能力，尤其是最近在推理方面的进步，如o1和o3，这些进步正在推动人工智能的边界。尽管在数学和编码方面取得了显著成就，但在需要密码学专长的领域中，LLMs的推理能力仍然尚未得到充分探索。在本文中，我们介绍了CipherBank，这是一个全面的基准测试，旨在评估LLMs在密码学解密任务中的推理能力。CipherBank 包含2,358个精心设计的问题，涵盖了5个领域和14个子领域中的262个独特的明文，重点在于涉及加密的真实世界场景和隐私敏感场景。从密码学角度来看，CipherBank 包括3大类加密方法，涵盖了9种不同的算法，从古典密码学到定制的密码技术。我们评估了最先进的LLMs在CipherBank上的表现，例如GPT-4o、DeepSeek-V3，以及以推理为重点的最新模型如o1和DeepSeek-R1。我们的结果显示，不仅一般目的聊天LLMs与推理专门化LLMs之间的推理能力存在显著差距，而且目前推理专门化模型在应用到古典密码学解密任务时的表现也存在问题，突显了这些模型在理解并操作加密数据时面临的挑战。通过详细分析和错误调查，我们提供了几项关键观察，这些观察揭示了LLMs在密码学推理方面存在的局限性和潜在改进领域。这些发现强调了不断改进LLMs推理能力的必要性。