摘要
大型语言模型(LLMs)作为决策支持工具的潜力在商业、工程和医学等领域正得到越来越多的探索,这些领域经常面临着不确定性下的决策难题。本文表明,直接在这些类型的决策问题上提示 LLMs 会产生较差的结果,尤其是在问题复杂性增加的情况下。为了帮助解决这些问题,我们提出了 DeLLMa(决策大型语言模型助手),这是一个旨在提高不确定环境中决策准确性的框架。DeLLMa 涉及一个多步骤推理过程,该过程整合了最近在扩展推理时间推理方面的最佳实践,借鉴了决策理论和效用理论的原则,以提供准确且可被人审计的决策过程。我们在多个现实的决策环境中验证了我们的程序,证明了 DeLLMa 可以持续提高领先语言模型的决策性能,并且与竞争方法相比,准确率提高了 40%。此外,我们展示了在测试时扩展计算量如何提高性能,并进行了人工评估以对 DeLLMa 的组件进行基准测试。