arXiv 论文列表

作者: Yuzhe Weng, Haotian Wang, Tian Gao, Kewei Li, Shutong Niu, Jun Du

arXiv:2410.15029v2 宣告类型: 替换交叉摘要: 在多模态情感分析中，收集文本数据往往比视频或音频更具挑战性，因为注释成本更高且自动语音识别(ASR)质量不一致。为了解决这一挑战，我们的研究开发了一种稳健的模型，该模型能够有效地整合多模态情感信息，即使在缺少文本模态的情况下也是如此。具体而言，我们开发了一种双流自蒸馏框架，包括统一模态跨注意力(UMCA)和模态想象自编码器(MIA)，该框架在处理完整模态和缺少文本模态的场景方面表现出色。具体而言，当缺少文本模态时，我们的框架利用基于LLM的模型从音频模态模拟文本表示，而MIA模块从其他两种模态补充信息，使模拟的文本表示类似于真实的文本表示。为了进一步对齐模拟和真实表示，并使模型能够捕捉情感强度回归任务中的样本顺序的连续性质，我们还引入了秩- N 对比(RNC)损失函数。在对CMU-MOSEI进行测试时，我们的模型在MAE上取得了出色的表现，并且在缺少文本模态的情况下明显优于其他模型。代码可在以下链接获取：https://github.com/WarmCongee/SDUMC

发布时间: 3/25/2025

查看原文

基于知识增强的跨模态提示模型的Few-Shot联合多模态实体-关系提取

作者: Li Yuan, Yi Cai, Junsheng Huang

arXiv:2410.14225v2 任务类型: replace-cross 摘要: 多模态实体-关系提取（JMERE）是一项挑战性的任务，旨在从社交媒体帖子中的文图对中提取实体及其关系。现有JMERE方法需要大量的标注数据。然而，为JMERE收集和注释精细粒度的多模态数据构成了巨大的挑战。起初，我们构建了符合原始数据分布的多样性和全面的多模态少量样本数据集。为了解决少量样本设置中的信息不足问题，我们引入了Knowledge-Enhanced Cross-modal Prompt Model (KECPM) 用于JMERE。这种方法可以通过引导大型语言模型生成补充背景知识来有效解决少量样本设置中的信息不足问题。我们提出的方法分为两个阶段：（1）知识摄取阶段，该阶段基于语义相似性动态制定提示，引导ChatGPT生成相关知识，并利用自我反思来完善知识；（2）知识增强的语言模型阶段，该阶段将辅助知识与原始输入合并，并利用基于变换器的模型对齐JMERE所需的输出格式。我们在源自JMERE数据集的少量样本数据集上广泛评估了我们的方法，结果显示与强基线相比，在微观和宏观F$_1$分数方面均表现出优越性。此外，我们还提供了定性分析和案例研究来阐明我们模型的有效性。

发布时间: 3/25/2025

查看原文

深度模型融合：神经网络可解释性的姐妹篇——一个综述

作者: Arham Khan, Todd Nief, Nathaniel Hudson, Mansi Sakarvadia, Daniel Grzenda, Aswathy Ajith, Jordan Pettyjohn, Kyle Chard, Ian Foster

arXiv:2410.12927v2 通知类型: 替换-交叉摘要：我们通过损失景观几何学的视角来回顾模型合并文献，将模型合并和损失景观分析中的观测结果与调控神经网络训练及其内部表示现象相连。我们将这些领域文献中反复出现的观察结果提炼为损失景观几何的四大特征描述：模态凸性、确定性、定向性以及连通性。我们认为，从模型合并对学习表示结构的理解为模型可解释性和鲁棒性提供了新的见解，随后我们提出了这些领域交叉点的具有前景的新研究方向。

发布时间: 3/25/2025

查看原文

Adapt-$\infty$: 通过动态数据选择的可扩展连续多模态指令调优

作者: Adyasha Maharana, Jaehong Yoon, Tianlong Chen, Mohit Bansal

arXiv:2410.10636v2 提交类型：替换交叉摘要：来自不同分发商的视觉指令数据集在不同时间发布，并且往往包含大量根据其任务组成（即技能）或参考来源的语义冗余文本-图像对。这种冗余极大地限制了不断适应的多模态大型语言模型的有效部署，阻碍了它们随着时间的推移改进现有技能并获得新能力的能力。我们重新定义了终生指令调优（LiIT）中的数据选择问题，其中模型根据模型中已获取知识的当前状态自动选择有益的样本来学习来自早期和新数据集的数据。我们提出了Adapt-$\infty$，这是一种新的多路和自适应数据选择方法，在终生指令调优（LiIT）过程中动态平衡样本效率和效果。我们首先通过基于梯度的样本向量分组构建伪技能簇。接下来，我们从选择器专家池中为每个技能簇选择表现最佳的数据选择器，包括我们新提出的成绩函数——图像接地得分。这种数据选择器从每个技能簇中选择出最重要的样本子集进行训练。为了防止在LiIT过程中数据集池的大小持续增加，我们引入了一种簇级永久性数据修剪策略，从每个簇中移除最语义冗余的样本，从而保持计算需求在可管理的范围内。我们通过一系列包含各种任务的多模态指令调优数据集验证了Adapt-$\infty$的有效性和效率，包括（知识）VQA、多语言、接地、推理、仅语言和多图像理解。使用Adapt-$\infty$选择的样本进行训练可以缓解灾难性遗忘，尤其是对于罕见任务，并且仅使用原始数据的一小部分便促进了连续体中的前向迁移。

发布时间: 3/25/2025

查看原文

相信即所见：利用生成模型检测未观察到的对象

作者: Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome

arXiv:2410.05869v4 任务类型: replace-cross 摘要: 在图像中看不见但位于相机附近的目标物是否可以检测到？本研究介绍了新的二维、二维半和三维未观察到物体检测任务，用于预测被遮挡或位于图像帧外的附近物体的位置。我们调整了几种最新的预训练生成模型来解决这一任务，包括二维和三维扩散模型以及视觉-语言模型，并展示了它们可以用于推断未直接观测到的物体的存在。为了评估这一任务，我们提出了一组能够捕捉不同方面性能的度量标准。我们在RealEstate10k和NYU Depth v2数据集的室内场景上的实验评估表明，这些结果激发了使用生成模型进行未观察到物体检测任务的应用。

发布时间: 3/25/2025

查看原文

我们在音频deepfake检测中的位置：对生成模型和检测模型的系统分析

作者: Xiang Li, Pin-Yu Chen, Wenqi Wei

arXiv:2410.04324v4 Announce Type: replace-cross 摘要：近年来，利用生成人工智能（AI）技术进行文本到语音（TTS）和语音转换（VC）的进步使得生成高质量和具拟人化的音频成为可能。这在识别人工智能合成语音和真实人类声音之间制造了日益增长的难度，并可能导致个人冒充、欺诈、传播虚假信息和欺诈等问题。然而，现有的人工智能合成音频检测方法并未跟上进展，经常无法在多种多样数据集上泛化。在本文中，我们介绍了SONAR，一种合成AI音频检测框架和基准测试，旨在提供对最先进的AI合成听觉内容进行区分的全面评估。SONAR包括来自9个不同的音频合成平台的新颖评估数据集，其中包括领先的TTS提供商和最先进的TTS模型。它是首个在传统检测系统和基于基础模型的检测系统之间提供统一基准测试的框架。通过广泛的实验，（1）我们揭示了现有检测方法的局限性，并证明了基础模型表现出更强的泛化能力，这可能归因于它们的模型大小以及预训练数据的质量和规模。（2）语言基础模型展现出强大的跨语言泛化能力，即使仅微调于英语语音数据，也能够保持在多种语言上的强大性能。这一发现还表明，在音频深度合成检测中，主要挑战更多地与合成音频的真实性和质量有关，而非语言特定特性。（3）我们探讨了少量样本微调在提高泛化性能方面的有效性和效率，强调了其在定制化应用方面的潜在优势，例如针对特定实体或个体的个性化检测系统。

发布时间: 3/25/2025

查看原文

LLM+KG@VLDB'24 工作坊总结

作者: Arijit Khan, Tianxing Wu, Xi Chen

arXiv:2410.01978v2 通告类型: 交叉替换摘要: 大型语言模型（LLMs）和知识图谱（KGs）的统一已成为一个热点话题。在中国广州举行的与VLDB 2024联合举办的LLM+KG'24研讨会上，探讨的一个关键主题是LLMs和KGs有效交互所带来的重要数据管理挑战和机遇。本报告概述了在LLM+KG'24研讨会上由不同演讲者提出的重大方向和方法。

发布时间: 3/25/2025

查看原文

CSCE: 通过同时增强因果重要性和一致性来提升LLM推理能力

作者: Kangsheng Wang, Xiao Zhang, Juntao Lyu, Tianyu Hu, Huimin Ma

arXiv:2409.17174v3 宣告类型: replace-cross 摘要：基于链的推理方法，如思考链（CoT）在解决大型语言模型（LLMs）的推理任务中发挥着越来越重要的作用。然而，在推理步骤与其对应的状态转换之间产生的因果幻觉已成为推进LLMs推理能力的重要障碍，尤其是在长距离推理任务中。本文提出了一种非基于链的推理框架，同时考虑因果重要性和一致性，即因果重要性和一致性增强器（CSCE）。我们通过使用疗效评估定制LLM的损失函数，从因果重要性和一致性两个方面增强其推理能力。这确保了模型捕捉到关键的因果关系，并在各种场景下保持稳健和一致的性能。此外，我们将推理过程从像CoT等链基方法中常用的级联多步骤推理，转变为一个因果增强的方法，一次性输出整个推理过程，进一步提高了模型的推理效率。广泛的实验证明，我们的方法在推理成功率和速度上都有所改进。这些改进进一步表明，非基于链的方法也可以帮助LLMs完成推理任务。

发布时间: 3/25/2025

查看原文

视觉识别中参数高效微调（PEFT）的统一研究中的教训与见解

作者: Zheda Mai, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Li Zhang, Wei-Lun Chao

arXiv:2409.16434v4 宣告类型: replace-cross 摘要：参数高效微调（PEFT）因其预训练模型规模的扩大以及需要对其进行微调以获得更好的下游性能而引起了广泛关注。尽管出现了许多新的PEFT方法，但对这些方法的性能和适用场景缺乏系统的研究，留下了很多问题，如“何时应用PEFT”和“应使用哪种方法”，特别是在视觉识别领域。在本文中，我们对视觉变换器（Vision Transformers）的代表性PEFT方法进行了统一的经验研究。我们系统地调整了它们的超参数，以公平比较其在下游任务上的准确性。我们的研究提供了一种实用的用户指南，并揭示了一些新的见解。首先，如果仔细调整，不同的PEFT方法在低样本量基准VTAB-1K中的准确性几乎是相同的。这包括一些曾被认为效果较差的简单方法，如仅微调偏差项。其次，尽管准确性相似，我们发现不同的PEFT方法在错误类型和高置信度预测方面有所不同，这可能是由于它们不同的归纳偏置所致。这种不一致性（或互补性）为集成方法提供了机会，我们也进行了初步尝试。第三，超越常用的低样本量任务，我们发现PEFT在许多样本量的场景中也非常有用，其准确性与完整的微调相当或更好，且使用的参数要少得多。最后，我们研究了PEFT在保持预训练模型对分布迁移鲁棒性（例如，CLIP）的能力。不出所料，PEFT方法优于单独的完整微调。然而，通过权重空间集成，完整微调能够在目标分布和分布迁移性能之间取得更好的平衡，这为鲁棒PEFT的未来研究方向提供了指引。

发布时间: 3/25/2025

查看原文

SynMorph: 生成带有配对样本的合成 faceswap 数据集

作者: Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch

arXiv:2409.05595v2 宣告类型: replace-cross 摘要：面部形态变换攻击检测（MAD）算法已成为克服面部识别系统漏洞的必要工具。由于隐私担忧和限制，为了克服缺乏大规模和公开可用的数据集的问题，本文提出了一种新的方法来生成一个包含2450个身份和超过100,000个形态变换的合成数据集。提出的合成面部形态变换数据集因其高质量样本、不同类型的形态变换算法以及在单一和差异形态变换攻击检测算法方面的通用性而独具特色。在实验中，我们应用面部图像质量评估和漏洞分析，从生物特征样本质量和面部识别系统中形态变换攻击潜力的角度评估所提出的合成面部形态变换数据集。结果与现有最先进的合成数据集以及一个代表性非合成数据集进行了基准比较，显示出改进。此外，我们设计了不同的协议，并研究了使用所提出的合成数据集训练形态变换攻击检测算法的适用性。

发布时间: 3/25/2025

查看原文