LLM2D

摘要

多模态深度学习通过整合文本、图像、音频和视频等多种信息来源来增强决策能力。为了开发可信赖的多模态方法，理解不确定性对这些模型的影响至关重要。我们提出了 LUMA，一个独特的基准数据集，包含来自 50 个类别的音频、图像和文本数据，用于从不确定和多模态数据中学习。它扩展了著名的 CIFAR 10/100 数据集，其中包含从三个音频语料库中提取的音频样本，以及使用 Gemma-7B 大型语言模型 (LLM) 生成的文本数据。LUMA 数据集能够控制注入不同类型和程度的不确定性，以实现和定制特定的实验和基准测试计划。LUMA 也以 Python 包的形式提供，其中包括用于生成数据集多个变体的函数，这些函数可以控制数据的多样性、每种模态的噪声量以及添加分布外样本。此外，还提供了一个基线预训练模型以及三种不确定性量化方法：蒙特卡罗 dropout、深度集成和可靠冲突多视图学习。这个全面的数据集及其基准测试工具旨在促进和支持可信赖且稳健的多模态深度学习方法的开发、评估和基准测试。我们预计 LUMA 数据集将帮助 ICLR 社区为安全关键应用设计更可信赖和稳健的机器学习方法。