LLM2D
不确定性意识的搜索和价值模型:缓解LLM中搜索扩展的缺陷
Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs
作者: Fei Yu, Yingru Li, Benyou Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11155v1

摘要

arXiv:2502.11155v1 宣告类型: 新 摘要: 基于价值模型的搜索在引导生成方面是有效的,但存在扩展缺陷:其优势随着样本量的增大而减弱,表现不如非搜索基线。这种局限性源于在未见推理路径中价值模型可靠性的下降。为了应对这一问题,我们提出了一种 Awareness of 不确定性的搜索框架,其中包括两个关键组件:(1) 含有不确定性预测的价值模型,以及 (2) 使用建议的高效Group Thompson Sampling算法的 Awareness of 不确定性选择过程。在GSM8K上的实验表明,我们的方法缓解了搜索扩展缺陷,在16样本时覆盖率为90.5%,而传统价值导向搜索仅为85.8%。这项工作首次系统地将不确定性的量化集成到LLM搜索范式中。