arXiv 论文列表

作者: Bin Feng, Shulan Ruan, Mingzheng Yang, Dongxuan Han, Huijie Liu, Kai Zhang, Qi Liu

arXiv:2502.15322v1 交叉类型：摘要：随着越来越多的互联网用户在网上发布图片来表达日常生活中的情绪，图像情感分析引起了越来越大的关注。最近，研究人员普遍倾向于设计不同的神经网络来从图像中提取视觉特征进行情感分析。尽管取得了显著进展，但在该项任务中，用于描述图像的元数据（例如，文本描述和关键词标签）尚未得到充分探索。在本文中，我们提出了一种新型的元数据增强Transformer（SentiFormer）来将多种元数据及其对应的图像融合到统一框架中。具体而言，我们首先获取图像的多种元数据，并统一各种数据的表示形式。然后，我们设计了一个自适应相关性学习模块，以突出更有用的信息并抑制较弱的信息。此外，我们进一步开发了一个跨模态融合模块，用于融合自适应学习的表示形式并进行最终预测。在三个公开可用数据集上的广泛实验结果表明了我们提出方法的优越性和合理性。

发布时间: 2/24/2025

查看原文

基于Efficient-CNN编码器的双分支网络道路交通标志识别方法

作者: Zhenghao Xi, Yuchao Shao, Yang Zheng, Xiang Liu, Yaqi Liu, Yitong Cai

arXiv:2502.15307v1 类型: cross 摘要:交通标志识别(TSR)在辅助驾驶和智能交通系统中扮演着重要角色。然而，复杂环境的噪声可能导致运动模糊或遮挡问题，这对实时高精度和鲁棒性识别提出了严峻挑战。在本文中，我们提出了一种改善的编码器与Siamese网络结合的IECES网络。我们的方法采用了三阶段的方法，包括基于Efficient-CNN的编码器、Siamese骨干和全连接层。我们首先使用卷积编码器从增强训练样本和标准图像中提取和编码交通标志特征。然后，我们设计了一个基于Efficient-CNN的Siamese神经网络，并使用对比损失函数，通过计算输入和模板之间的距离来提高TSR问题的鲁棒性。此外，在执行识别任务时，可以停止所提议网络的模板支路，以提高我们实时模型的处理速度，减少计算资源和参数规模。最后，我们将特征码和带有SoftMax函数的全连接层重新组合，用于分类样本代码并识别交通标志的类别。在清华大学-腾讯100K数据集和德国交通标志识别基准数据集上的实验结果表明了所提出的IECES网络的性能。与现有方法相比，在运动模糊和遮挡环境下，所提出的方法分别在精确召回率和准确率的平均值为88.1%、86.43%和86.1%，具有2.9M的轻量化规模。此外，我们模型的处理时间为每帧0.1秒，其速度相比现有方法提高了1.5倍。

发布时间: 2/24/2025

查看原文

SVDq：1.25比特和410倍键缓存压缩以用于LLM注意力机制

作者: Hong Yankun, Li Xing, Zhen Hui-Ling, Yu Xianzhi, Liu Wulong, Yuan Mingxuan

arXiv:2502.15304v1 类型：交叉摘要：对于大型语言模型（LLMs）的有效推理，键值（KV）缓存的有效压缩是至关重要的。三个主要的KV缓存压缩技术类型，即稀疏性、信道压缩和量化，已经被识别出来。本研究提出了基于奇异值分解（SVD）的混合精度量化方法SVDq。首先，使用SVD基表示将KV缓存转换为潜在信道。由于潜在信道中的值在仅前几个潜在信道后迅速衰减并变得可以忽略不计，我们的方法随后结合了潜在信道的感知重要性量化和压缩，从而可以有效地分配更高的精度给重要的信道。理论上，我们证明SVDq导致的量化误差（x0.1或更低）远远低于原始空间中每信道键量化误差。基于RULER和LongBench基准的实验结果显示，SVDq可以实现相当于1.25位的键缓存精度。结合键稀疏性时，它可以达到410倍的键压缩比，同时保持可比的模型性能。值得注意的是，我们的方法几乎对LongBench数据集无损。这表明SVDq能够实现高精度低位量化，为LLMs中的键值缓存压缩提供了一种更高效的方法。

发布时间: 2/24/2025

查看原文

超越固定变量：通过平坦方案和时空焦点学习扩展变量时间序列预测

作者: Minbo Ma, Kai Tang, Huan Li, Fei Teng, Dalin Zhang, Tianrui Li

arXiv:2502.15296v1 宣告类型: cross 摘要: 多变量时间序列预测（MTSF）长期以来一直是研究的重点。传统上，这些研究假设固定的变量数，但在实际应用中，随着新传感器的部署，网络物理系统往往会扩展，增加MTSF中的变量数。鉴于此，我们引入了一个新的任务，即扩展变量时间序列预测（EVTSF）。这个任务提出了独特的挑战，具体包括（1）处理因添加新变量引起的不一致数据形状问题，以及（2）解决时空学习不平衡的问题，其中扩展的变量由于需要及时操作而观察数据有限。为了解决这些挑战，我们提出了STEV，一种灵活的时间序列预测框架。STEV 包括一种新的平面方案，以应对不一致的数据形状问题，该方案通过沿变量维度将2D样本拉平，将基于图的时间序列建模架构扩展到1维空间中，从而使模型在不影响整体图中动态空间相关性的情况下具有可变尺度的适应性。我们引入了一种新颖的时间空间焦点学习策略，该策略结合了负过滤器来解决对比学习与图表示之间的潜在冲突，并将其核心焦点损失作为核心，以指引框架专注于优化扩展变量。我们使用三个真实世界的数据集评估EVTSF的性能，并将其与为EVTSF量身定制的最新MTSF模型的三种潜在解决方案进行了比较。实验结果表明，STEV 显著优于其竞争对手，特别是在扩展变量方面。值得注意的是，STEV 仅使用扩展时期观察数据的5%与训练完整观察数据的最新MTSF模型表现相当。进一步对各种扩展策略的探索还证明了STEV在实际应用中的普适性。

发布时间: 2/24/2025

查看原文

圆注意力：一种新型的圆级别注意力机制以加速LLM推理

作者: Yaohua Tang, Zhicheng Hu, Kun Cheng, Fan Mo, Qiheng Lv, Hua Wang, Zhi Chen

arXiv:2502.15294v1 公告类型: cross 摘要：大型语言模型（LLMs）中的上下文窗口大小不断增加，提高了其处理复杂长文本任务的能力。然而，随着对话轮次的继续进行，需要在GPU内存中存储大量的KV缓存，这显著影响了模型服务系统的效率，甚至影响了其可用性。本文分析了真实用户的对话数据，并发现LLM推理表现出一个临界层，在此之后，各轮次的注意力分布显示出明显的相似性。我们提出了圆级注意力机制Round Attention，该机制只需回溯并计算最相关的轮次的KV缓存。实验结果显示，我们的方法在不牺牲模型性能的情况下节省了55%的内存使用。

发布时间: 2/24/2025

查看原文

时间扭曲：AI驱动时代开发者理想工作周与实际工作周之间的差距

作者: Sukrit Kumar, Drishti Goel, Thomas Zimmermann, Brian Houck, B. Ashok, Chetan Bansal

arXiv:2502.15287v1 Announce Type: cross 摘要：软件开发人员在一个工作周内平衡多种不同的任务，然而他们分配给这些任务的时间往往与他们认为的理想情况有所不同。识别并解决这些差异对于希望提升开发人员生产力和幸福感的组织至关重要。在本文中，我们基于对微软484名软件开发人员进行的一项调查显示，这部分内容旨在识别开发人员在理想工作周与实际工作周之间如何分配时间的关键差异。我们的分析揭示了开发人员理想工作周与实际工作周之间存在显著差异，且存在明显的关联性：随着这两者之间的差距扩大，我们观察到生产力和满意度均下降。通过分析这些差异的具体活动，我们评估了它们对开发人员满意度和生产力的直接影响。此外，由于AI工具在软件工程中日益普及，既在行业中也在学术界，我们确定了一些可以被自动化处理的具体任务和领域。在这篇文章中，我们做出了三个主要贡献：1）量化工作周差异对开发人员生产力和满意度的影响2）识别对满意度和生产力影响较大的个别任务3）提供实际的数据驱动见解，以指导未来的软件工程中的AI自动化工作，使之与开发人员的要求及其理想的工作流程相一致，以最大化他们的生产力和满意度。

发布时间: 2/24/2025

查看原文

基于云辅助的卸载重思在LPWANs上高效环境声识别

作者: Le Zhang, Quanling Zhao, Run Wang, Shirley Bian, Onat Gungor, Flavio Ponzina, Tajana Rosing

arXiv:2502.15285v1 种类:交叉摘要:基于学习的环境声音识别已成为生物研究和城市规模传感系统中超低功耗环境监测的关键方法。这些系统通常在资源有限的条件下运行，并且往往在偏远地区由采集的能量供电。最近在设备端的声音识别由于资源限制而导致准确性低，而通过云端卸载策略则受到高通信成本的阻碍。在本文中，我们引入了ORCA，这是一种资源高效的云辅助环境声音识别系统，适用于在低功耗广域网络（LPWANs）上运行的无电池设备，旨在应对广泛的音频传感应用。我们提出了一种云辅助策略，该策略可以改善设备端推断的低准确性，同时尽量减少云卸载的通信成本。通过利用基于自我注意力的云子频谱特征选择方法来促进高效的设备端推断，ORCA解决了资源受限的LPWAN云卸载中的三个关键挑战：1）高昂的通信成本和低数据速率，2）动态的无线信道条件，3）不稳定的卸载。我们在一个真实的实时城市声音试验台中实现了ORCA，并对其进行评估。我们的结果表明，ORCA在能耗节省方面比最先进的方法高达$80 \times$，在延迟降低方面高达$220 \times$，同时保持相当的准确性。

发布时间: 2/24/2025

查看原文

CopyJudge: 自动化文本到图像扩散模型中的版权侵权识别与减轻

作者: Shunchang Liu, Zhuan Shi, Lingjuan Lyu, Yaochu Jin, Boi Faltings

arXiv:2502.15278v1 侵权类型：跨领域摘要：评估由AI生成的图像是否与版权作品在本质上相似是解决版权纠纷的关键步骤。本文提出了一种名为CopyJudge的自动化版权侵权识别框架，该框架利用大型视觉语言模型（LVLM）模拟法庭过程，以确定受版权保护的图像与通过文本到图像扩散模型生成的图像之间的实质性相似性。具体而言，我们采用一种抽象-过滤-比较测试框架，结合多LVLM辩论来评估侵权的可能性，并提供详细的判决理由。基于这些判决，我们进一步引入了一个基于LVLM的一般减轻策略，该策略能够自动优化侵权提示，避免使用敏感表达，同时保留非侵权内容。此外，通过探索扩散潜空间内的非侵权噪声向量，并利用强化学习增强我们的方法，即使不修改原始提示，也能有效减轻记忆和知识产权侵权，同时保留非侵权表达。实验结果显示，我们的识别方法取得了与现有最佳性能相当的表现，而且在各种形式的侵权中展现出更好的泛化能力和可解释性，而我们的减轻方法能够更有效地减轻记忆和知识产权侵权，同时不丢失非侵权表达。

发布时间: 2/24/2025

查看原文

纠正与解释统一框架：可解释的语法错误修正

作者: Jingheng Ye, Shang Qin, Yinghui Li, Hai-Tao Zheng, Shen Wang, Qingsong Wen

arXiv:2502.15261v1 交叉类型通知摘要：语法错误纠正（GEC）在可解释性方面面临着关键挑战，尤其是在为语言学习者设计的GEC系统中。现有的研究主要集中在解释已经提取出的语法错误，而忽视了解释与修正之间的关系。为了解决这一问题，我们提出了EXGEC，一个以生成方式整合解释和纠正任务的统一可解释GEC框架，认为这些任务相互强化。我们在最近的人标注解释性GEC数据集EXPECT上进行了实验，该数据集包含约20,000个样本。此外，我们发现EXPECT中存在显著的噪声，可能会影响模型训练和评估。因此，我们提出了一个名为EXPECT-denoised的替代数据集，以确保一个更客观的训练和评估框架。在各种NLP模型（BART、T5和Llama3）上的结果显示，EXGEC模型在两个任务上都超越了单任务基线模型，展示了我们方法的有效性。

发布时间: 2/24/2025

查看原文

学院里的编曲：将旋律构思转化为完整作品的音乐创作整合学习

作者: Hongxi Pu, Futian Jiang, Zihao Chen, Xingyue Song

arXiv:2502.15255v1 Announce Type: cross 摘要：音乐创作长期以来被视为一种重要的艺术形式。然而，现有的数字音频工作站和音乐制作软件 often 呈现给缺乏正式音乐训练的用户很高的入门门槛。为了解决这个问题，我们介绍了 ComposeOn，这是一种基于音乐理论的工具，旨在为音乐知识有限的用户提供服务。ComposeOn 允许用户轻松地将其旋律想法扩展为完整的创作，并提供简单的编辑功能。通过整合音乐理论，它在初学者、中级和高级水平上解释音乐创作过程。我们的用户研究（N=10）将 ComposeOn 与基准方法 Suno AI 进行了比较，表明 ComposeOn 为音乐技能有限的个人提供了更易接近且更具趣味性的创作和学习体验。ComposeOn 桥接了理论与实践之间的差距，作为一种创作辅助工具和音乐教育平台，提供了创新的解决方案。研究还探讨了基于理论的音乐创作与生成音乐之间的差异，突出前者在个人表达和学习方面的优势。

发布时间: 2/24/2025

查看原文