LLM2D

摘要

arXiv:2504.15780v1 宣告类型: 新摘要: 数学几何问题求解（GPS）通常需要有效地整合多模态信息和验证性的逻辑一致性。尽管大型语言模型在通用问题求解方面取得了快速进展，但在方法和基准方面的问题仍未得到解决，特别是鉴于现有的合成GPS基准往往缺乏自我验证，且由于大型语言模型的幻觉现象，包含噪声和自相矛盾的信息。在本文中，我们提出了一种可扩展的数据引擎TrustGeoGen用于问题生成，并通过形式验证提供了一个符合原则的基准，我们相信这为GPS方法的进一步发展奠定了基础。该引擎通过四项关键创新合成了几何数据：1）多模态对齐的图示、文本描述和步骤解决方案生成；2）形式验证确保符合规则的推理路径；3）一种自举机制，通过递归状态生成实现复杂性升级；4）我们设计的GeoExplore系列算法同时产生多种解决方案变体和自我反思回溯轨迹。通过形式逻辑验证，TrustGeoGen产生了一个包含保证模态完整性的GeoTrust-200K数据集，以及GeoTrust-test测试集。实验结果显示，最先进的模型在GeoTrust-test上的准确率仅为49.17%，这表明其评价标准的严格性。至关重要的是，使用GeoTrust训练的模型在GeoQA上的OOD泛化显著减少了与OpenAI-o1伪标签标注相比的逻辑不一致性。我们的代码可在 https://github.com/Alpha-Innovator/TrustGeoGen 获取。