LLM2D
抽样识别:多模态大型语言模型风险控制与评估通用框架
Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
作者: Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08174v1

摘要

多模态大型语言模型(MLLM)在各种任务中展现出令人鼓舞的进步,但它们仍然面临着重大的可信度问题。以往的研究将分割一致性预测(SCP)应用于语言建模,以构建具有统计保证的预测集。然而,这些方法通常依赖于内部模型的 logits 或局限于多项选择设置,这阻碍了它们在动态、开放式环境中的泛化性和适应性。在本文中,我们介绍了 TRON,一个适用于任何支持在开放式和封闭式场景中进行采样的 MLLM 的两步风险控制和评估框架。TRON 包含两个主要组成部分:(1) 一种新颖的一致性评分,用于对最小大小的响应集进行采样,以及 (2) 一种非一致性评分,用于根据自一致性理论识别高质量的响应,通过两个特定的风险级别控制错误率。此外,我们首次研究了开放式环境中预测集中的语义冗余,这为基于平均集大小的 MLLM 提供了一个有希望的评估指标。我们在四个视频问答 (VideoQA) 数据集上使用八个 MLLM 进行的综合实验表明,TRON 达到了由两个用户指定的风险级别限定的预期错误率。此外,去重后的预测集在保持适应性的同时,在不同风险级别下更有效率和稳定,更适合进行风险评估。