摘要
从大型语言模型 (LLM) 生成多样化的响应对于规划/搜索和合成数据生成等应用至关重要,因为多样性在不同生成中提供了不同的答案。先前的方法依赖于提高温度来增加多样性。然而,与普遍看法相反,我们表明,这种方法不仅会导致随着温度升高而生成质量下降,而且还取决于模型的下一个词概率是否与答案的真实分布相似。我们提出了 \method{},一种使用语言模型本身将空间划分为地层的替代方法。在推理时,随机选择一个地层,并在该地层内进行抽样。为了衡量多样性,我们引入了 CoverageQA,这是一个包含多个同样合理的答案的未完全指定问题的集合,并通过测量输出分布与有效地面真值答案的均匀分布之间的 KL 散度来评估多样性。由于计算专有模型的每个响应/解决方案的概率是不可行的,因此我们测量地面真值解决方案的召回率。我们的评估表明,使用 SimpleStrat 与 GPT-4o 相比召回率提高了 0.05,与 Llama 3 相比,KL 散度平均降低了 0.36。