摘要
arXiv:2502.11157v1 宣布类型: 新
摘要: 我们提出了Dyve,这是一种动态过程验证器,通过结合快思考和慢思考来增强大型语言模型中的推理错误检测,受到Kahneman系统理论的启发。Dyve适应性地应用立即的标记级确认System 1进行简单的步骤分析,并综合全面分析System 2进行复杂的步骤分析。利用一种新颖的逐步共识过滤过程监督技术,结合蒙特卡洛估计与基于LLM的评估,Dyve从中噪声数据中筛选出高质量的监督信号。在ProcessBench和MATH数据集上的实验结果证实,Dyve在现有基于过程的验证器中表现显著优于,且在Best-of-N设置中提升了性能。