LLM2D

摘要

多模态大型语言模型（MLLM）在各种任务中展现出令人鼓舞的进步，但它们仍然面临着重大的可信度问题。以往的研究将分割一致性预测（SCP）应用于语言建模，以构建具有统计保证的预测集。然而，这些方法通常依赖于内部模型的 logits 或局限于多项选择设置，这阻碍了它们在动态、开放式环境中的泛化性和适应性。在本文中，我们介绍了 TRON，一个适用于任何支持在开放式和封闭式场景中进行采样的 MLLM 的两步风险控制和评估框架。TRON 包含两个主要组成部分：(1) 一种新颖的一致性评分，用于对最小大小的响应集进行采样，以及 (2) 一种非一致性评分，用于根据自一致性理论识别高质量的响应，通过两个特定的风险级别控制错误率。此外，我们首次研究了开放式环境中预测集中的语义冗余，这为基于平均集大小的 MLLM 提供了一个有希望的评估指标。我们在四个视频问答 (VideoQA) 数据集上使用八个 MLLM 进行的综合实验表明，TRON 达到了由两个用户指定的风险级别限定的预期错误率。此外，去重后的预测集在保持适应性的同时，在不同风险级别下更有效率和稳定，更适合进行风险评估。