LLM2D

摘要

arXiv:2504.18085v1 宣告类型: cross 摘要：大型语言模型（LLMs）已知能够生成高质量的测试和回答我们的查询。但我们要不要完全信任这些生成的文本？在本文中，我们研究了LLMs中不确定性量化的问题。我们提出了一种新颖的随机集合大型语言模型（RSLLM）方法，该方法预测的是令牌空间上的有限随机集合（相信函数），而不是像经典LLMs那样预测概率向量。为了实现这一点，我们还提出了一种基于层次聚类的方法，用于提取并利用一组称为“焦点”子集的令牌，这些子集上的相信预测被定义，而不是使用所有可能的令牌集合，从而使方法在可扩展性的同时保持有效。RS-LLMs通过与预测相信函数相关的置信集的大小，编码了其生成过程中的主观不确定性，这种不确定性由训练数据集的大小和多样性引起。提出的方法在CoQA和OBQA数据集上使用Llama2-7b、Mistral-7b和Phi-2模型进行评估，并在正确性方面显示出优于标准模型的结果，同时展示了在估计其预测的第二级不确定性以及检测其幻觉方面的潜力。