摘要
arXiv:2504.15780v1 宣告类型: 新
摘要: 数学几何问题求解(GPS)通常需要有效地整合多模态信息和验证性的逻辑一致性。尽管大型语言模型在通用问题求解方面取得了快速进展,但在方法和基准方面的问题仍未得到解决,特别是鉴于现有的合成GPS基准往往缺乏自我验证,且由于大型语言模型的幻觉现象,包含噪声和自相矛盾的信息。在本文中,我们提出了一种可扩展的数据引擎TrustGeoGen用于问题生成,并通过形式验证提供了一个符合原则的基准,我们相信这为GPS方法的进一步发展奠定了基础。该引擎通过四项关键创新合成了几何数据:1)多模态对齐的图示、文本描述和步骤解决方案生成;2)形式验证确保符合规则的推理路径;3)一种自举机制,通过递归状态生成实现复杂性升级;4)我们设计的GeoExplore系列算法同时产生多种解决方案变体和自我反思回溯轨迹。通过形式逻辑验证,TrustGeoGen产生了一个包含保证模态完整性的GeoTrust-200K数据集,以及GeoTrust-test测试集。实验结果显示,最先进的模型在GeoTrust-test上的准确率仅为49.17%,这表明其评价标准的严格性。至关重要的是,使用GeoTrust训练的模型在GeoQA上的OOD泛化显著减少了与OpenAI-o1伪标签标注相比的逻辑不一致性。我们的代码可在 https://github.com/Alpha-Innovator/TrustGeoGen 获取。