摘要
深度学习在过去十年中取得了长足进步,催生出越来越强大的系统,并被应用于各种各样的领域。在自然语言处理领域,大型语言模型等一系列突破性进展彻底改变了该领域,并被越来越多地应用于面向用户的应用程序中。为了充分利用这项技术的优势并减少潜在的危害,对模型预测的可靠性和其发展过程中存在的各种不确定性进行量化至关重要。
本论文从语言学、统计学和神经网络的角度研究了自然语言处理中的不确定性如何进行刻画,以及如何通过实验流程的设计来减少和量化这种不确定性。我们进一步探讨了建模中的不确定性量化,从理论和实证角度研究了归纳模型偏差对文本分类任务的影响。相应的实验包括三种不同语言(丹麦语、英语和芬兰语)的数据和任务,以及大量不同的不确定性量化方法。此外,我们提出了一种基于非交换一致性预测的自然语言生成中校准采样方法,该方法能够提供更紧密的词元集,并更好地覆盖实际的延续。最后,我们开发了一种方法,利用辅助预测器来量化大型黑盒语言模型的置信度,其中置信度仅根据目标模型的输入和生成的输出文本进行预测。