arXiv 论文列表

作者: Jiachen Luo, Huy Phan, Lin Wang, Joshua D. Reiss

arXiv:2503.05858v3 二模态情绪识别类型：替换-交叉摘要：由于难以提取捕捉细微情绪差异的特征，多模态情绪识别具有挑战性。理解多模态交互和连接是构建有效的双模态语音情绪识别系统的关键。在这项工作中，我们提出了双模态连接注意力融合（BCAF）方法，该方法包括三个主要模块：交互连接网络、双模态注意力网络和相关注意力网络。交互连接网络采用编码器-解码器架构来建模音频和文本之间的模态连接，同时利用模态特异性特征。双模态注意力网络增强了语义补充，并利用了跨模态和模内交互。相关注意力网络减少了跨模态噪音，并捕捉了音频和文本之间的相关性。在MELD和IEMOCAP数据集上的实验表明，提出的BCAF方法优于现有最先进的基线方法。

发布时间: 3/25/2025

查看原文

使用知识蒸馏和混合量化在嵌入式FPGA上进行轻量级学习图像压缩部署

作者: Alaa Mazouz, Sumanta Chaudhuri, Marco Cagnanzzo, Mihai Mitrea, Enzo Tartaglione, Attilio Fiandrotti

arXiv:2503.04832v4 通知类型: 替换-交叉摘要：可学习图像压缩（LIC）在编码效率（RD效率）方面显示出超越标准化视频编解码器的潜力，从而推动了对硬件友好型实现的研究。现有大多数LIC硬件实现优先考虑延迟而非RD效率，并通过广泛探索硬件设计空间来实现这一目标。我们提出了一种新的设计范式，将调整设计以适应特定硬件平台的负担转移至模型维度确定上，而无需牺牲RD效率。首先，我们设计了一个从参考教师模型中提取更精简的学生LIC模型的框架：通过调整单一模型的超参数，我们可以在不进行复杂硬件设计探索的情况下满足不同硬件平台的约束条件。其次，我们提出了一种硬件友好型实现的广义分量归一化（GDN）激活函数，即使在参数量化后也能保持RD效率。第三，我们设计了一种流水线FPGA配置，通过利用并行处理并优化资源分配来充分利用可用的FPGA资源。我们的实验结果表明，我们的实现超越了所有现有的FPGA实现，同时在性能上与原始模型非常接近。

发布时间: 3/25/2025

查看原文

混合归一化：通过混合归一化实现稳定的高效Transformer训练

作者: Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma

arXiv:2503.04598v2 宣告类型: replace-cross 摘要：转换器已经成为广泛机器学习任务的事实上的架构，特别是在大型语言模型（LLMs）中。尽管它们在性能上取得了显著成就，但在训练深层转换器网络时仍存在挑战，特别是在层归一化的位置方面。虽然预归一化（Pre-Norm）结构由于其更加突出的身份路径而有利于更容易的训练，但它们往往在性能上不如后归一化（Post-Norm）策略。在本文中，我们提出了**HybridNorm**，这是一种简单而有效的混合归一化策略，结合了预归一化和后归一化方法的优点。具体而言，HybridNorm 在每个转换器块的注意机制中使用 QKV 归一化，并在前向网络（FFN）中使用后归一化。这种设计不仅稳定了训练，还提高了性能，特别是在 LLM 的背景下。在密集和稀疏架构的全面实验中表明，HybridNorm 一致地优于预归一化和后归一化方法，在各种基准上取得了最先进的结果。这些发现突显了 HybridNorm 作为提高深层转换器模型训练和性能的一种更稳定和更有效技术的潜力。代码可在 https://github.com/BryceZhuo/HybridNorm 获取。

发布时间: 3/25/2025

查看原文

日常生活中使用智能手机时的被动心率监测

作者: Shun Liao, Paolo Di Achille, Jiang Wu, Silviu Borac, Jonathan Wang, Xin Liu, Eric Teasley, Lawrence Cai, Yuzhe Yang, Yun Liu, Daniel McDuff, Hao-Wei Su, Brent Winslow, Anupam Pathak, Shwetak Patel, James A. Taylor, Jameson K. Rogers, Ming-Zher Poh

arXiv:2503.03783v3 通告类型: replace-cross 摘要：静息心率（RHR）是心血管健康和死亡率的重要生物标志物，但纵向跟踪它通常需要可穿戴设备，限制了它的可用性。我们提出了一种名为PHRM的深度学习系统，使用基于面部视频的光电容积描记术，在日常智能手机使用中进行被动心率（HR）和RHR测量。该系统使用了来自495名参与者共225,773个视频，并在实验室和自由生活条件下验证了来自205名参与者的185,970个视频，这是此类研究中最大的验证研究。相比于参考心电图，PHRM在肤色组（浅色、中色和深色）的心率测量中平均绝对百分比误差（MAPE）<10%；每个肤色组的心率测量的MAPE不劣于其他组。使用PHRM每天测量的RHR与可穿戴心率跟踪器的平均绝对误差<5次/分钟，并且与已知的风险因素相关。这些结果突显了智能手机在实现被动且公平的心脏健康监测方面的潜力。

发布时间: 3/25/2025

查看原文

不完备多模态生存预测的提炼提示学习

作者: Yingxue Xu, Fengtao Zhou, Chenyu Zhao, Yihui Wang, Can Yang, Hao Chen

arXiv:2503.01653v2 类型: replace-cross 摘要：多模态数据的整合，包括病理图像和基因档案，广泛应用于精确生存预测。尽管在多模态生存模型方面取得了最近的进展，但为多模态融合收集完整模态依然面临重大挑战，阻碍了其在临床环境中的应用。当前处理不完整模态的方法往往效果有限，因为它们通常只能弥补缺失模态知识的一小部分。为了解决这个问题，我们提出了一种提炼提示学习框架（DisPro），利用大型语言模型（LLMs）对缺失模态的强健稳定性，该框架采用两阶段提示来补充缺失模态的全面信息。在第一阶段，单模态提示（UniPro）提取每个模态的知识分布，为后续阶段补充缺失模态的模态特定知识做准备。在第二阶段，多模态提示（MultiPro）利用可用模态作为提示，让LLMs推断缺失模态，提供模态通用信息。同时，第一阶段获得的单模态知识被注入到多模态推理中，以补充缺失模态的模态特定知识。广泛的实验证明了所提出方法的优势。代码可在https://github.com/Innse/DisPro获得。

发布时间: 3/25/2025

查看原文

分而治之：基于异构噪声集成的扩散式对抗净化

作者: Gaozheng Pei, Shaojie Lyu, Gong Chen, Ke Ma, Qianqian Xu, Yingfei Sun, Qingming Huang

arXiv:2503.01407v2 通告类型: replace-cross 摘要：现有的基于扩散的方法通过在前向扩散过程中引入一定量的噪声来破坏对抗性扰动，随后通过反向过程恢复干净的样例。然而，这种方法本质上是有缺陷的：前向过程在所有像素上的均匀操作会破坏正常像素，同时试图对抗对抗性扰动，导致目标模型产生错误预测。仅依赖低强度噪声不足以有效防御。为了解决这一关键问题，我们提出了一种基于神经网络可解释性的异质净化策略。我们的方法在目标模型关注的特定像素处应用高强度噪声，而其他像素仅受到低强度噪声的影响。这一要求促使我们重新设计扩散模型的采样过程，从而有效地去除变化的噪声级别。此外，为了评估我们的方法对强适应性攻击的防御能力，我们提出的这种方法通过单步重采样显著减少了时间和内存使用。广泛的三组数据集上的实验结果表明，我们的方法在对抗训练和净化技术中表现出明显的优越性。

发布时间: 3/25/2025

查看原文

SFO： piloting VLM 反馈进行离线 RL

作者: Jacob Beck

arXiv:2503.01062v3 通告类型: replace-cross 摘要：尽管互联网规模的图像和文本数据使视觉语言模型（VLMs）具备了强大的泛化能力，但由于缺乏互联网规模的控制数据，标准强化学习（RL）代理的类似泛化发展受到了阻碍。虽然VLMs由于缺少基于动作的训练数据，在解决控制任务方面本质上是有限制的，但它们在图像理解方面的能力使它们能够在RL任务中通过识别成功的结果来提供有价值的反馈。在AI反馈的强化学习（RLAIF）中的一个关键挑战是如何最好地将VLM衍生的信号融入学习过程。我们在此背景下探讨了这一问题，并介绍了称为子轨迹过滤优化的一类方法。我们发现了三个关键见解。首先，轨迹长度在离线RL中起着关键作用，因为全长轨迹偏好学习加剧了拼接问题，需要使用子轨迹。其次，即使在马尔可夫环境中，也需要一个来自图像序列的非马尔可夫奖赏信号来评估轨迹改进，因为VLMs无法解释控制动作，只能依赖时间上的视觉线索。第三，一种简单而有效的方法——过滤和加权行为克隆——在基于人类反馈的复杂强化学习方法中表现更优。我们提出了一种基于子轨迹的过滤行为克隆方法，该方法利用VLM对子轨迹的反馈，并结合了一个回顾性过滤机制，该机制删除了失败前的子轨迹，以提高稳健性和防止出现瞬息变化。这项研究是初步的；我们通过在玩具控制领域进行评估提供了初步证据。请享受我们的机场双关语。

发布时间: 3/25/2025

查看原文

在RAG-Text2SQL系统中平衡内容大小

作者: Prakhar Gurawa, Anjali Dharmik

arXiv:2502.15723v3 公告类型: replace-cross 摘要: 大型语言模型（LLMs）已经 emerged 作为将自然语言查询转换为 SQL 命令的一种有希望的解决方案，从而实现数据库交互的无缝对接。然而，这些文本到 SQL（Text2SQL）系统面临着固有的限制，幻觉、过时的知识以及不可追溯的推理。为了解决这些挑战，将检索增强生成（RAG）与 Text2SQL 模型集成的趋势已经兴起。RAG 作为一种检索机制，提供诸如表架构和元数据等关键上下文信息，以增强查询生成过程。尽管如此，RAG + Text2SQL 系统仍然容易受到检索文档的质量和数量的影响。虽然更丰富的文档内容可以提高架构相关性和检索准确性，但也引入了噪声，增加了幻觉的风险，随着 Text2SQL 模型提示大小的增加，降低了查询的精度。本文研究了文档大小和质量之间的细微权衡，旨在找到优化系统性能的最佳平衡点。关键的阈值被确定下来，当性能恶化时，同时探讨了应对这些挑战的可操作策略。此外，我们还探讨了 Text2SQL 模型中的幻觉现象，强调了精心编排的文档呈现对减少错误的关键作用。我们的发现为增强 RAG + Text2SQL 系统的稳健性提供了路线图，并为实际应用提供了实用见解。

发布时间: 3/25/2025

查看原文

AnDB：以AI原生数据库打破边界实现通用语义分析

作者: Tianqing Wang, Xun Xue, Guoliang Li, Yong Wang

arXiv:2502.13805v2 Announce Type: replace-cross 摘要：在此次演示中，我们呈现了AnDB，这是一种支持传统OLTP工作负载和创新AI驱动任务的AI原生数据库，能够在结构化和非结构化数据中实现统一的语义分析。尽管结构化数据分析已经成熟，但在用户查询与非结构化数据之间的语义鸿沟方面仍然存在挑战。AnDB通过利用前沿的AI原生技术解决了这些问题，使用户能够使用直观的类似SQL的语句进行语义查询，而无需具备AI专业知识。这种方法消除了传统文本到SQL系统的模糊性，并提供了对所有数据类型进行无缝端到端优化。AnDB通过生成多个执行计划，并通过其优化器选择最优化的那个，在平衡准确度、执行时间和财务成本的基础上满足用户策略和内部优化机制。AnDB使数据管理基础设施具备面向未来的特性，使用户能够有效地利用各类数据的全部潜力，而无需重新构建一切。

发布时间: 3/25/2025

查看原文

在LLM中基准测试后训练量化：全面分类、统一评估和比较分析

作者: Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie

arXiv:2502.13178v2 宣告类型: replace-cross 摘要: 后训练量化（PTQ）技术由于其高效性和低资源需求，已被广泛应用于大型语言模型（LLMs）的压缩。然而，当前研究缺少对每种PTQ策略的优越且适用场景的深入分析。此外，现有的算法主要关注性能，而忽视了模型大小、性能和量化位宽之间的权衡。为了缓解这些困惑，我们在本文中提供了一个新的LLMs PTQ基准。首先，为了支持我们的基准，我们通过仔细审视现有主流方法的计算策略（例如，基于优化的、基于补偿的等），提出了一种全面的分类体系。然后，我们在每个类别中使用基准进行全面实验，覆盖不同大小（7B-70B）、位宽、训练级别（LLaMA1/2/3/3.1）、架构（Mixtral、DeepSeekMoE 和 Mamba）和模态（LLaVA1.5 和 VILA1.5）的模型，涵盖了多种评估指标。通过对比分析结果，我们总结了每种PTQ策略的优点和模型大小-位宽权衡，考虑到性能。例如，我们的基准揭示了基于补偿的技术在跨架构鲁棒性方面的突出表现，并且对于超大规模模型的极低位宽PTQ需要重新评估。最后，我们进一步主张，补偿和其他PTQ策略的结合可以实现最优的鲁棒性。我们认为，我们的基准将为LLMs的部署和未来PTQ方法的研究提供有价值的建议。我们将在https://github.com/zjq0455/PTQ_Benchmark 中创建一个存储库来存储我们的基准。

发布时间: 3/25/2025

查看原文