摘要
arXiv:2502.13442v1 交叉公告类型
摘要:大型语言模型(LLMs)现在在标准数学文字问题基准测试(例如,GSM8K)上的表现接近人类水平,但它们的真实推理能力仍然存在争议。一个主要的担忧是,模型往往会自信但缺乏根据地回答无法解答的问题。我们引入了TreeCut,这是一个合成数据集,通过将每个问题表示为一棵树并移除选择性的必要条件,系统地生成无限数量的无法解答的数学文字问题及其可解答的对应问题。实验表明,在最坏情况下,TreeCut有效地在GPT-4o和o3-mini等大型语言模型中诱导出幻觉,其幻觉率为61%和42%。进一步的分析表明,更深或更复杂的树结构、复合项名以及在路径中间移除必要条件都会增加幻觉的可能性,突显了LLMs在识别无法解答的数学问题方面持续面临的挑战。