arXiv 论文列表

作者: Chih-Chyau Yang, Tian-Sheuan Chang

arXiv:2503.21337v1 交叉类型: 同时发布摘要: 本文介绍了一种针对边缘设备实时应用设计的71.2-μW语音识别加速器，强调了其超低功耗设计。通过算法和硬件的协同优化，我们提出了一种紧凑的循环尖劈神经网络，包含两层循环层、一层全连接层以及低时间步长（1或2）。2.79 MB的模型经过剪枝和4位定点量化，缩小了96.42%到0.1 MB。在硬件方面，我们利用混合级别剪枝、零跳跃和合并尖劈技术，将复杂度降低了90.49%到13.86 MMAC/S。并行时间步长执行解决了跨时间步长的数据依赖性，并通过权重共享实现权重缓存的功耗节省。利用稀疏的尖劈活动，输入广播方案消除了零计算，进一步节省了功耗。该设计基于TSMC 28-nm工艺，在100 kHz频率下实时运行，功耗为71.2 μW，超越了当前最先进的设计。在500 MHz下，其能效为28.41 TOPS/W，面积效率为1903.11 GOPS/mm²。

发布时间: 3/28/2025

查看原文

面向边缘设备的低功耗流式语音增强加速器

作者: Ci-Hao Wu, Tian-Sheuan Chang

arXiv:2503.21335v1 宣传类型：交叉摘要：基于Transformer的语音增强模型取得了令人印象深刻的成果。然而，它们异构且复杂的结构限制了模型压缩的潜力，导致了更高的复杂性和较低的硬件效率。此外，这些模型并未针对流媒体和低功耗应用进行定制。为解决这些挑战，本文提出了一种通过模型和硬件优化实现的低功耗流媒体语音增强加速器。提出的高性能模型将模型压缩和目标应用相结合，以硬件执行为目标进行了优化，通过提出的知识感知和流媒体感知的剪枝技术将模型大小减少了93.9%。通过基于批量归一化的Transformer进一步降低了所需延迟。此外，我们采用了无softmax的注意力机制，并补充了额外的批量归一化，简化了硬件设计。适应这些多样化的计算模式，通过将它们分解为逐元素乘法和累加（MAC）来实现。这通过利用可配置的SRAM寻址的一维处理阵列来实现，从而减少硬件复杂性并简化零跳过。使用TSMC 40nm CMOS工艺进行最终实现，仅需207.8K个门和53.75KB的SRAM。在62.5MHz的频率下，实时推理时仅消耗8.08 mW。

发布时间: 3/28/2025

查看原文

ReFeed：基于反馈反思推理的多维度总结 refinement

作者: Taewon Yun, Jihwan Oh, Hyangsuk Min, Yuho Lee, Jihwan Bang, Jason Cai, Hwanjun Song

arXiv:2503.21332v1 交叉领域类型: 摘要: 总结细化在扩展到多维时面临挑战。在本文中，我们引入了ReFeed，一种通过反馈反思性推理来增强多维的强大数据提炼管道。为了实现这一点，我们推出了SumFeed-CoT，这是一个大规模的针对轻量级模型训练优化、具有反思性推理的长-CoT 基础数据集。我们的实验揭示了维度的数量、反馈曝光和推理策略对细化性能的影响，强调了反思性推理和同时处理多种反馈对于缓解维度之间的权衡至关重要。此外，ReFeed 对噪声反馈和反馈顺序具有鲁棒性。最后，我们的发现强调了以适当的目标和指南创建数据构成了有效推理的基础支柱。该数据集和模型将会发布。

发布时间: 3/28/2025

查看原文

细粒度修改语义显式解析的组成图像检索

作者: Zixu Li, Zhiheng Fu, Yupeng Hu, Zhiwei Chen, Haokun Wen, Liqiang Nie

arXiv:2503.21309v1 宣告类型: cross 摘要：多模态查询驱动的图像检索（CIR）通过包含参考图像和修改文本的多模态查询来实现图像检索。参考图像定义了检索上下文，而修改文本指定了所需的更改。然而，现有的CIR数据集主要使用粗粒度修改文本（CoarseMT），这未能充分捕捉到细微的检索意图。这种限制带来了两个关键挑战：（1）忽略详细的差异会导致不精确的阳性样本，（2）检索视觉上相似的图像时出现了更大的歧义。这些问题降低了检索精度，需要手动结果过滤或重复查询。为了解决这些限制，我们开发了一种稳健的细粒度CIR数据注释流水线，以最小化不精确的阳性样本，并增强CIR系统准确辨识修改意图的能力。利用这一流水线，我们细化了FashionIQ和CIRR数据集，创建了两个细粒度CIR数据集：Fine-FashionIQ和Fine-CIRR。此外，我们引入了FineCIR，这是第一个明确设计用于解析修改文本的CIR框架。FineCIR有效地捕捉细粒度的修改语义，并将它们与模糊的视觉实体对齐，提高了检索精度。广泛实验表明，FineCIR在细粒度和传统CIR基准数据集上始终优于最先进的CIR基线。我们的FineCIR代码和细粒度CIR数据集可在 https://github.com/SDU-L/FineCIR.git 获取。

发布时间: 3/28/2025

查看原文

InternVL-X：高效视觉词元压缩推动并加速InternVL系列 nắng程

作者: Dongchen Lu, Yuyao Sun, Zilu Zhang, Leping Huang, Jianliang Zeng, Mao Shu, Huo Cao

arXiv:2503.21307v1 平行类型: 交叉摘要: 大多数多模态大语言模型（MLLMs）将视觉标记视为“一系列文本”，将它们与文本标记集成到一个大型语言模型（LLM）中。然而，大量的视觉标记显著增加了对计算资源和时间的需求。在本文中，我们提出了一种名为InternVL-X的模型，该模型通过结合三种视觉标记压缩方法，在性能和效率上均优于InternVL模型。首先，我们提出了一个新颖的视觉-语言投影器PVTC。该组件将相邻的视觉嵌入整合为局部查询，并利用转换后的CLS标记作为全局查询，然后通过这些局部和全局查询执行点到区域的交叉注意力，以更有效地转换视觉特征。其次，我们提出了一种分层视觉标记压缩模块LVTC，该模块在LLM浅层压缩标记，然后通过上采样和残差连接在深层扩展这些标记。这显著增强了模型的计算效率。此外，我们提出了一种高效的高分辨率切片方法RVTC，该方法基于图像区域或长度筛选动态调整视觉标记的数量。RVTC在性能略有下降的情况下极大地提高了培训效率。通过使用20%或更少的视觉标记，InternVL-X在7个公开的MLLM基准测试中达到了最先进的性能，并在12个任务中将均值指标提高了2.34%。

发布时间: 3/28/2025

查看原文

DeBackdoor：一种在有限数据情况下检测深度模型后门攻击的演绎框架

作者: Dorde Popovic, Amin Sadeghi, Ting Yu, Sanjay Chawla, Issa Khalil

arXiv:2503.21305v1 嵌入类型: cross 摘要: 后门攻击是深度学习中最有效、最实用和最隐蔽的攻击之一。在本文中，我们考虑一种实际场景，即开发人员从第三方获得一个深度模型，并将其用作安全关键系统的一部分。开发人员希望在系统部署前检查该模型是否有潜在的后门。我们发现，现有的大多数检测技术都基于不适用于该场景的假设。在本文中，我们提出了一种在实际限制下检测后门的新型框架。我们通过演绎方式在可能的触发器空间中搜索来生成候选触发器。我们构建并优化了一种经过光滑处理的攻击成功率作为我们的搜索目标。从一种广泛的模板攻击类别开始，仅使用深度模型的前向传播，我们逆向工程了后门攻击。我们在广泛的攻击、模型和数据集上进行了广泛的评估，我们的方法在这几种设置中表现几乎完美。

发布时间: 3/28/2025

查看原文

多尺度可逆神经网络用于宽动态范围可变率学习图像压缩

作者: Hanyue Tu, Siqi Wu, Li Li, Wengang Zhou, Houqiang Li

arXiv:2503.21284v1 宣传类型: cross 摘要：基于自编码器的结构在最近的learned图像压缩方法中占主导地位。然而，自编码器固有的信息损失限制了其在高位率下的率失真性能，并限制了其位率适应的灵活性。在本文中，我们提出了一种基于可逆变换的可变位率图像压缩模型，以克服这些限制。具体而言，我们设计了一个轻量级的多尺度可逆神经网络，它双射地将输入图像映射为多尺度潜在表示。为了提高压缩效率，我们设计了一种扩展增益单元的多尺度空间-通道上下文模型，从高到低估计潜在表示的_entropy_。实验结果表明，提出的方法在与现有可变位率方法相比时达到了最先进的性能，并且在与最近的多模型方法竞争时仍然表现出竞争力。值得注意的是，我们的方法是唯一一个在很宽的位率范围内，尤其是在高位率下，使用单一模型就能在所有方面超越VVC的learned图像压缩解决方案。源代码可在 \href{https://github.com/hytu99/MSINN-VRLIC}{https://github.com/hytu99/MSINN-VRLIC} 获取。

发布时间: 3/28/2025

查看原文

通过推理学习：Few-Shot 类增量学习的类比权重生成

作者: Jizhou Han, Chenhao Ding, Yuhang He, Songlin Dong, Qiang Wang, Xinyuan Gao, Yihong Gong

arXiv:2503.21258v1 类别: cross 摘要: 少样本类别增量学习（FSCIL）使模型能够在有限数据的情况下学习新类别，同时保持对之前学习类别的性能。传统的FSCIL方法经常需要在有限的新类别数据下微调参数，并且在学习新类别和利用旧知识之间存在分离。受人类大脑类比学习机制的启发，我们提出了一种新颖的类比生成方法。我们的方法包括灵感来源于大脑的类比生成器（BiAG），在增量阶段无需微调参数即可从现有类别中推导出新类别的权重。BiAG由三个组件组成：权重自我注意模块（WSA）、权重与原型类比注意模块（WPAA）和语义转换模块（SCM）。SCM使用神经塌缩理论进行语义转换，WSA补充新类别的权重，WPAA计算类比以生成新类别的权重。在miniImageNet、CUB-200和CIFAR-100数据集上的实验表明，我们的方法在最终和平均准确率上都优于当前最佳方法。

发布时间: 3/28/2025

查看原文

OminiAdapt：学习跨任务不变性以实现稳健且环境意识的机器人操作

作者: Yongxu Wang, Weiyun Yi, Xinhao Kong, Wanting Li

arXiv:2503.21257v1 类型: cross 摘要：随着具身智能的快速发展，利用大规模的人类数据在类人机器人上进行高层次的模仿学习已成为学术界和工业界的关注焦点。然而，将类人机器人应用于精密操作领域仍然具有挑战性，因为它们在感知和控制过程中的复杂性，类人机器人和人类在形态和执行机制上的长期差异以及缺乏来自第一人称视觉的相关任务特征。为了解决模仿学习中的协变量偏移问题，本文提出了一个针对类人机器人的模仿学习算法。通过聚焦主要任务目标，过滤背景信息，并结合空间注意机制进行通道特征融合，所提出算法抑制了环境干扰，并通过动态权重更新策略显著提高了类人机器人完成目标任务的成功率。实验结果表明，所提出的方法在各种典型任务场景中表现出鲁棒性和可扩展性，为类人机器人中的自主学习和控制提供了新的思路和方法。该项目将在GitHub上开源。

发布时间: 3/28/2025

查看原文

视觉到音乐生成：一个综述

作者: Zhaokai Wang, Chenxi Bao, Le Zhuo, Jingrui Han, Yang Yue, Yihong Tang, Victor Shea-Jay Huang, Yue Liao

arXiv:2503.21254v1 宣告类型: cross 摘要：从视觉生成音乐，包括视频生成音乐和图像生成音乐，是多模态人工智能的一个重要分支，在电影配乐、短视频创作和舞蹈音乐合成等领域展现了广阔的 applications 潜力。然而，与文本和图像等模态的快速发展相比，由于视觉与音乐之间复杂内部结构和动态关系建模的难度，视觉生成音乐的研究仍处于初级阶段。现有的综述主要集中在一般音乐生成上，缺乏对视觉生成音乐的全面讨论。在本文中，我们系统地回顾了视觉生成音乐领域的研究进展。首先，我们分析了三种输入类型：通用视频、人体运动视频和图像，以及两种输出类型：符号音乐和音频音乐的技术特性和核心挑战。然后，我们从架构角度总结了现有的视觉生成音乐方法。我们还提供了一般数据集和评估指标的详细回顾。最后，我们讨论了当前研究中的挑战和未来研究的有希望的方向。我们希望我们的综述能够激发在视觉生成音乐以及更广泛的多模态生成领域的学术研究和工业应用中的进一步创新。为了跟进最新的工作并与进一步创新，我们正在持续维护一个 GitHub 仓库，网址为 https://github.com/wzk1015/Awesome-Vision-to-Music-Generation。

发布时间: 3/28/2025

查看原文