LLM2D
强化大语言模型是一个形式定理证明器
Reinforced Large Language Model is a formal theorem prover
作者: Zhiling Luo
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08908v1

摘要

arXiv:2502.08908v1 通知类型: 新颖 摘要: 为了利用大型语言模型在定理形式化和证明中的优势,我们提出了一种强化学习框架,通过滚动推出下一个策略并将其与预期的策略进行比较,逐次优化预训练的语言模型。实验结果表明,这种方法有助于实现比直接微调语言模型更高的准确性。