LLM2D

arXiv:2502.08908v1 通知类型: 新颖摘要: 为了利用大型语言模型在定理形式化和证明中的优势，我们提出了一种强化学习框架，通过滚动推出下一个策略并将其与预期的策略进行比较，逐次优化预训练的语言模型。实验结果表明，这种方法有助于实现比直接微调语言模型更高的准确性。