LLM2D

摘要

从大型语言模型 (LLM) 生成多样化的响应对于规划/搜索和合成数据生成等应用至关重要，因为多样性在不同生成中提供了不同的答案。先前的方法依赖于提高温度来增加多样性。然而，与普遍看法相反，我们表明，这种方法不仅会导致随着温度升高而生成质量下降，而且还取决于模型的下一个词概率是否与答案的真实分布相似。我们提出了 \method{}，一种使用语言模型本身将空间划分为地层的替代方法。在推理时，随机选择一个地层，并在该地层内进行抽样。为了衡量多样性，我们引入了 CoverageQA，这是一个包含多个同样合理的答案的未完全指定问题的集合，并通过测量输出分布与有效地面真值答案的均匀分布之间的 KL 散度来评估多样性。由于计算专有模型的每个响应/解决方案的概率是不可行的，因此我们测量地面真值解决方案的召回率。我们的评估表明，使用 SimpleStrat 与 GPT-4o 相比召回率提高了 0.05，与 Llama 3 相比，KL 散度平均降低了 0.36。