arXiv 论文列表

作者: Yunpu Zhao, Rui Zhang, Junbin Xiao, Ruibo Hou, Jiaming Guo, Zihao Zhang, Yifan Hao, Yunji Chen

arXiv:2504.14848v1 类型: cross 摘要：视觉-语言模型（VLMs）在各种多模态任务中表现出色，但经常遭受校准不良的问题，导致其口头表达的置信度与响应的正确性之间存在不一致。这种校准不良削弱了用户的信任，特别是当模型自信地提供错误或虚构的信息时。在本文中，我们提出了一种新的通过语义扰动进行置信校准（CSP）框架，以提高VLMs对以对象为中心的问题响应时口头表达的置信度的校准。我们首先引入了一个扰动数据集，在该数据集中对关键对象区域应用高斯噪声，以模拟不同置信水平的视觉不确定性，从而建立视觉模糊性与置信水平之间的显式映射。我们进一步通过结合在扰动数据集上的监督微调和随后的偏好优化的两阶段训练过程来增强校准。在流行的基准测试上的广泛实验表明，我们的方法显著提高了口头表达的置信度与响应正确性之间的对齐，同时保持或提高了整体任务性能。这些结果突显了语义扰动作为提高VLMs可靠性和可解释性的一种实用工具的潜在价值。

发布时间: 4/22/2025

查看原文

探索$\ell_0$稀疏化以实现无推理的稀疏检索

作者: Xinjie Shen, Zhichao Geng, Yang Yang

arXiv:2504.14839v1 交叉类型: cross 摘要: 随着对效率要求的不断提高，信息检索已经发展出稀疏检索这一分支，进一步朝着无需推理的检索方向发展，在索引时对文档进行编码，查询时不进行模型推理。现有的稀疏检索模型依赖于FLOPS正则化进行稀疏化，虽然该机制最初是为双胞胎编码器设计的，但在无需推理的情景中被认为是不对称的次优方案。此前尝试将FLOPS适应于无需推理场景的方法主要限于基于规则的方法，使得稀疏化方法在无需推理检索模型中的潜力大为未被探索。在本文中，我们探索了基于$\ell_0$启发的无需推理的检索稀疏化方法。通过在BEIR基准上的全面离域评估，我们的方法在无需推理的稀疏检索模型中达到了最先进的性能，并且可以与领先的双胞胎稀疏检索模型相比拟。此外，我们还探讨了检索效果和计算效率之间的权衡，展示了其实用价值，适用于实际应用场景。

发布时间: 4/22/2025

查看原文

保护你的声音：面向时间的鲁棒水印技术

作者: Yue Li, Weizhi Liu, Dongdong Lin

arXiv:2504.14832v1 Announce Type: cross 摘要：生成模型的迅速发展导致合成了真实与虚假难以分辨的声音。为了消除这种模糊性，将水印嵌入到合成声音的频域特征中已成为一种常见的做法。然而，通过选择频域实现的鲁棒性往往以牺牲细粒度的声音特征为代价，从而导致清晰度的损失。为了同时最大化时间域特征的学习以提高清晰度并保持鲁棒性，我们提出了一个名为**真**时间感知**鲁**稳**水**印技术（True）的方法来保护语音和歌唱声音。

发布时间: 4/22/2025

查看原文

ECViT：高效的卷积视觉变换器，带有局部注意力和多尺度阶段

作者: Zhoujie Qian

arXiv:2504.14825v1 宣言类型: cross 摘要：视觉变换器（ViTs）通过利用自注意力机制来建模长距离依赖关系，从而革新了计算机视觉。然而，ViTs 面临挑战，如由于自注意力的二次缩放而导致的高计算成本，以及需要大量训练数据。为解决这些问题，我们提出了一种高效卷积视觉变换器（ECViT），这是一个结合了卷积神经网络（CNNs）和变换器优势的混合架构。ECViT 通过从低级特征中提取补丁并将卷积操作增强到编码器中，将卷积神经网络固有的局部性和变换平移不变性引入到变换器框架中。此外，它还整合了局部注意力和分层结构，以实现高效的多尺度特征提取和表示。实验结果表明，ECViT 在性能和效率之间实现了最佳平衡，在各种图像分类任务中优于最先进的模型，同时保持较低的计算和存储要求。ECViT 提供了一种理想的应用解决方案，可以在不牺牲性能的前提下优先考虑高效率。

发布时间: 4/22/2025

查看原文

什么是其中的奥秘？大规模共享扩散模型的概念审计

作者: Xiaoyong Yuan, Xiaolong Ma, Linke Guo, Lan Zhang

arXiv:2504.14815v1 宣告类型: cross 摘要：扩散模型（DMs）已经革新了从文本生成图像的方式，使得能够从文本提示生成高度真实和定制化的图像。随着高效参数微调（PEFT）技术，如LoRA的发展，用户现在可以使用最少的计算资源自定义预训练模型。然而，这些微调过的DMs在开放平台上广泛分享引发了日益增长的伦理和法律担忧，因为这些模型可能会无意或故意生成敏感或未经授权的内容，例如版权材料、私人个体或有害内容。尽管监管机构对生成式AI越来越关注，但目前尚无实用工具在部署前系统地审核这些模型。在这篇论文中，我们解决了概念审核的问题：确定微调过的DM是否学习生成特定的目标概念。现有方法通常依赖于基于提示的输入设计和基于输出的图像分类，但存在关键的限制，包括提示不确定性、概念漂移和可扩展性差。为了克服这些挑战，我们提出了Prompt-Agnostic Image-Free Auditing（PAIA），这是一种新颖的基于模型的概念审核框架。通过将DM作为检查对象，PAIA能够直接分析模型的内部行为，无需优化提示或生成图像。我们在一个公开的DM分享平台获取的320个受控模型和690个现实生活中的社区模型上评估了PAIA。PAIA在检测准确性方面达到了超过90%，并且与现有基线相比将审核时间减少了18-40倍。据我们所知，PAIA是第一个可扩展且实用的扩散模型预部署概念审核解决方案，为更安全、更透明的扩散模型分享提供了实用基础。

发布时间: 4/22/2025

查看原文

自我提升词嵌入

作者: Mario M. Kubek, Shiraj Pokharel, Thomas B\"ohme, Emma L. McDaniel, Herwig Unger, Armin R. Mikler

arXiv:2504.14808v1 Announce Type: cross 摘要：本文介绍了一种新颖且快速的方法，用于细化预训练的静态词嵌入或更广义地讲，是词元嵌入。通过整合文本语料库中相邻词元的嵌入，该方法不断更新每个词元的表示，包括那些没有预分配嵌入的词元。这种方法有效地解决了词汇量外（OOV）问题。该方法独立于大型语言模型和浅层神经网络，能够实现各种应用，如语料库探索、概念搜索和词义消歧。该方法旨在增强主题活动一致语料库中的词元表示，其中词汇量受限于特定领域，从而与通用预训练向量相比产生更具意义的嵌入。例如，该方法应用于探索NOAA风暴事件数据库子集中的叙述所揭示的风暴事件及其对基础设施和社区的影响。本文还展示了该方法如何随着时间的推移改进与风暴相关的术语表示，揭示了灾难叙述演变的有价值见解。

发布时间: 4/22/2025

查看原文

基于状态转换的技能聚类和动态长度调整的动态对比技能学习

作者: Jinwoo Choi, Seung-Woo Seo

arXiv:2504.14805v1 类型: cross 摘要: 强化学习（RL）在各种领域取得了显著进展，但将其扩展到具有复杂决策需求的长期任务仍然颇具挑战性。技能学习尝试通过将动作抽象为更高层次的行为来解决这一问题。然而，当前的方法往往不能识别出语义相似的行为作为相同的技能，并且使用固定长度的技能，这限制了灵活性和泛化能力。为了解决这一问题，我们提出了动态对比技能学习（DCSL），这是一种新颖的框架，重新定义了技能表示和学习。DCSL 引入了三个关键想法：基于状态转移的技能表示、技能相似性函数学习以及动态调整技能长度。通过关注状态转移并利用对比学习，DCSL 有效地捕捉了行为的语义上下文，并根据行为的适当时间范围调整技能长度。我们的方法在复杂或嘈杂的数据集中能够实现更灵活和自适应的技能提取，并且在任务完成和效率方面显示出与现有方法竞争的性能。

发布时间: 4/22/2025

查看原文

文档级翻译的自动评价指标：综述、挑战与趋势

作者: Jiaxin GUO, Xiaoyu Chen, Zhiqiang Rao, Jinlong Yang, Zongyao Li, Hengchao Shang, Daimeng Wei, Hao Yang

arXiv:2504.14804v1 交叉类型：综合性摘要：随着深度学习技术的迅速发展，机器翻译领域取得了显著进步，尤其是在大型语言模型（LLMs）的推动下，文档级别翻译得到了巨大提升。然而，准确评价文档级别翻译的质量仍然是一个迫切的问题。本文首先介绍了文档级别翻译的发展现状和评价的重要性，强调了自动评价指标在反映翻译质量和指导翻译系统改进方面的作用。随后，本文详细分析了当前自动评价方案和指标，包括有参考文本和无参考文本的评价方法，以及传统指标、模型基于指标和LLM基于指标。接着，本文探讨了当前评价方法面临的挑战，如参考文本多样性不足、对句子级别的对齐信息依赖、以及LLM作为评判者的偏见、不准确性和缺乏解释性。最后，本文展望了评价方法的未来趋势，包括开发更用户友好的文档级别评价方法和更稳健的LLM作为评判者的方案，并提出了可能的研究方向，如减少对句子级别信息的依赖、引入多层次和多粒度评价方法、以及专门训练用于机器翻译评价的模型。该研究旨在对文档级别翻译的自动评价进行全面分析，并为未来的发展提供洞见。

发布时间: 4/22/2025

查看原文

在大型开源错误库中自动检测重复错误报告

作者: Clare E. Laney, Andrew Barovic, Armin Moin

arXiv:2504.14797v1 类别:交叉学科摘要:许多大型开源项目的所有者和贡献者会将软件缺陷或增强请求（称为 bug 报告）报告给问题跟踪系统。然而，有时他们会报告已经存在的问题。首先，他们可能没有足够的时间进行现有 bug 报告的充分研究。其次，他们可能不具备该特定领域的专业知识，无法意识到现有 bug 报告实际上是在讨论相同的内容，只是用词不同。在本文中，我们提出了一种基于机器学习方法的新颖方法，可以通过报告中的文本数据自动检测开放 bug 仓库中的重复 bug 报告。我们提出了六种替代方法：主题建模、高斯朴素贝叶斯、深度学习、基于时间的组织、聚类和使用生成式预训练变压器大规模语言模型的摘要。此外，我们引入了一种基于阈值的新颖重复识别方法，不同于文献中广泛使用的目标前 k 选择方法。我们的方法在所有提出的模型中都取得了令人鼓舞的结果，准确率范围从高 70% 到低 90%。我们对一个属于 Eclipse 开源项目的公共问题数据集进行了方法评估。

发布时间: 4/22/2025

查看原文

在多重实例学习中，Dropout能有多有效？

作者: Wenhui Zhu, Peijie Qiu, Xiwen Chen, Zhangsihao Yang, Aristeidis Sotiras, Abolfazl Razi, Yalin Wang

arXiv:2504.14783v1 声明类型: cross 摘要: 多实例学习（MIL）是各种应用中一种流行的半监督方法，特别是在组织学全切片图像（WSI）分类方面特别感兴趣。由于WSI的吉apixel分辨率，MIL在WSI中的应用通常需要两阶段的训练方案：首先从预训练的主干网络中提取特征，然后进行MIL聚合。然而，众所周知，这种不理想的训练方案会受到主干网络生成的“嘈杂”特征嵌入和固有的弱监督的阻碍，从而妨碍MIL学习丰富的、可泛化的特征。然而，用于缓解这一问题的最常用技术（即dropout）尚未在MIL中得到探索。在本文中，我们实证研究了dropout在MIL中的有效性。有趣的是，我们观察到，在噪声攻击下，去掉一个袋中最重要的k个实例可以提高性能和泛化能力。基于这一关键观察，我们提出了一种新的针对MIL的dropout方法，称为MIL-Dropout，该方法系统地确定要丢弃哪些实例。在五个MIL基准数据集和两个WSI数据集上的实验表明，与微乎其微的计算成本相比，MIL-Dropout可以提升现有MIL方法的性能。代码可在https://github.com/ChongQingNoSubway/MILDropout获取。

发布时间: 4/22/2025

查看原文