LLM2D

摘要

arXiv:2408.06816v2 宣告类型: 替换摘要：尽管大规模语言模型（LLMs）取得了巨大的进步，它们仍然会产生合理但不正确的回复。为了提高LLMs的可靠性，最近的研究重点在于不确定性量化，以预测回复是否正确。然而，大多数不确定性量化方法都是在单一标签的问题上进行评估的，这去除了数据不确定性：用户查询中固有的不可减少的随机性，这种随机性可以源自多种可能的答案等因素。这一限制可能使得在实际应用中不确定性量化的结果不可靠。在本文中，我们在数据不确定性存在的情况下调查了先前的不确定性量化方法。我们的贡献主要有两点：1）提出一个新的多答案问题回答数据集MAQA，该数据集包含世界知识、数学推理和常识推理任务，用于评估数据不确定性方面的不确定性量化；2）评估了5种不同白盒和黑盒LLM的5种多样性不确定性量化方法。我们的研究发现，与单一答案设置相比，以前的方法在某些任务上相对较弱，但这因任务而异。此外，我们观察到基于熵和一致性的方法即使在数据不确定性存在的情况下也能有效地估计模型不确定性。我们相信这些观察将指导未来在更现实场景下进行不确定性量化的工作。