LLM2D

摘要

arXiv:2502.11155v1 宣告类型: 新摘要: 基于价值模型的搜索在引导生成方面是有效的，但存在扩展缺陷：其优势随着样本量的增大而减弱，表现不如非搜索基线。这种局限性源于在未见推理路径中价值模型可靠性的下降。为了应对这一问题，我们提出了一种 Awareness of 不确定性的搜索框架，其中包括两个关键组件：(1) 含有不确定性预测的价值模型，以及 (2) 使用建议的高效Group Thompson Sampling算法的 Awareness of 不确定性选择过程。在GSM8K上的实验表明，我们的方法缓解了搜索扩展缺陷，在16样本时覆盖率为90.5%，而传统价值导向搜索仅为85.8%。这项工作首次系统地将不确定性的量化集成到LLM搜索范式中。