arXiv 论文列表

作者: Ding Zhu, Zhiqun Zuo, Mohammad Mahdi Khalili

arXiv:2503.21928v1 类别: cross 摘要：大规模机器学习（ML）模型在教育、信贷、招聘、医疗保健、刑事司法等领域被越来越多地用于关键领域。然而，这些模型的训练、部署和利用需要大量的计算资源。为了降低计算和内存成本，在文献中广泛使用了稀疏权重矩阵的机器学习模型。在稀疏模型中，具有特殊稀疏结构的模型（例如，块式稀疏权重矩阵的模型）更适合硬件加速器，并且可以在推断过程中降低内存和计算成本。不幸的是，尽管有许多高效的训练方法，但没有一种方法专门用于高效训练块式稀疏模型。因此，当前训练块式稀疏模型的方法都是从全连接的密集模型开始的，这会导致训练效率低下。在这项工作中，我们专注于训练具有**块式稀疏矩阵**的模型，并提出一个高效的训练算法，在训练和推理过程中同时降低计算和内存成本。此外，我们将证明我们提出的方法使我们在训练过程中能够高效地找到适合稀疏模式的最佳块大小。我们的广泛实证和理论分析表明，与基线相比，我们的算法可以在不降低性能的情况下显著减少计算和内存成本。

发布时间: 3/31/2025

查看原文

AutoPsyC：从半结构化访谈中使用大型语言模型自动识别心理动力冲突

作者: Sayed Muddashir Hossain, Simon Ostermann, Patrick Gebhard, Cord Benecke, Josef van Genabith, Philipp M\"uller

arXiv:2503.21911v1 分类: cross 摘要：精神动力冲突是持久的主题，往往是无意识的，它们塑造一个人的行为和经历。准确诊断精神动力冲突对于有效的患者治疗至关重要，通常是通过长期的手动评分半结构化访谈来完成的。现有的精神病诊断自动化解决方案往往集中在识别如抑郁症等广泛的疾病类别上，尚不清楚患者自身可能无意识的精神动力冲突是否可以从对话中自动识别出来。在这篇文章中，我们提出了AutoPsyC，这是第一个使用大规模语言模型（LLMs）从完整的操作化精神动力诊断（OPD）访谈中识别精神动力冲突的存在及其重要性的方法。我们的方法结合了最近在参数高效微调和检索增强生成（RAG）方面的进展，以及一种总结策略，以有效地处理整个长达90分钟的对话。在对包含141个诊断访谈的数据集的评估中，AutoPsyC在识别四种高度相关的精神动力冲突方面始终优于所有基线和消融条件。

发布时间: 3/31/2025

查看原文

JEEM：四种阿拉伯方言的视觉-语言理解

作者: Karima Kadaoui, Hanin Atwany, Hamdan Al-Ali, Abdelrahman Mohamed, Ali Mekky, Sergei Tilga, Natalia Fedorova, Ekaterina Artemova, Hanan Aldarmaki, Yova Kementchedjhieva

arXiv:2503.21910v1 类别: cross 摘要：我们介绍了JEEM，这是一个基准测试，旨在评估视觉-语言模型（VLMs）在四个阿拉伯国家的视觉理解能力：约旦、阿拉伯联合酋长国、埃及和摩洛哥。JEEM 包括图片 Captioning 和视觉问题回答的任务，并具备丰富文化和地区多样性的内容。该数据集旨在评估 VLMs 在不同方言上的泛化能力以及在视觉情境中准确解读文化元素的能力。在对五种流行的开源阿拉伯 VLMs 和 GPT-4V 的评估中，我们发现阿拉伯 VLMs 一贯表现不佳，他们在视觉理解和方言生成方面都存在困难。虽然 GPT-4V 在此次比较中表现最佳，但该模型的语言能力在不同方言中有所差异，其视觉理解能力也落后于其他模型。这凸显了需要更包容的模型以及文化多样性评估范式的价值。

发布时间: 3/31/2025

查看原文

面向无人机 surveillance 场景中长尾目标检测模型训练的指数加权实例感知重复采样方法

作者: Taufiq Ahmed, Abhishek Kumar, Constantino \'Alvarez Casado, Anlan Zhang, Tuomo H\"anninen, Lauri Loven, Miguel Bordallo L\'opez, Sasu Tarkoma

arXiv:2503.21893v1 类别: cross 摘要: 对象检测模型在处理类别不平衡问题时常常遇到困难，其中罕见类别出现的频率远低于常见类别。现有的基于采样的重新平衡策略，如重复因子采样（RFS）和实例感知重复因子采样（IRFS），通过根据图像和实例数量调整采样频率来缓解这一问题。然而，这些方法基于线性调整，限制了它们在长尾分布中的有效性。本文引入了一种扩展的IRFS策略，即指数加权实例感知重复因子采样（E-IRFS），它通过指数缩放更好地区分罕见和频繁类别。E-IRFS使用指数函数应用到图像和实例频率的几何平均上，调整采样概率，以确保更适应的重新平衡策略。我们使用YOLOv11对象检测模型在Fireman-UAV-RGBT数据集以及四个额外的公共数据集上评估E-IRFS，目的是在紧急情况下识别火灾、烟雾、人员和湖泊。结果表明，与基础模型相比，E-IRFS在检测性能上提高了22%，并且在罕见类别上优于RFS和IRFS。分析还显示，E-IRFS对轻型模型的效应更强，因为这些模型在应对类别不平衡时更依赖数据采样策略。研究结果表明，E-IRFS在资源受限的环境中提高了罕见对象的检测性能，使其成为诸如基于无人机的紧急监控等实时应用的理想解决方案。

发布时间: 3/31/2025

查看原文

StarFlow：从素描图像生成结构化工作流输出

作者: Patrice Bechard, Chao Wang, Amirhossein Abaskohi, Juan Rodriguez, Christopher Pal, David Vazquez, Spandana Gella, Sai Rajeswar, Perouz Taslakian

arXiv:2503.21889v1 宣告类型: cross 摘要: 工作流是企业平台自动化的基本组成部分，能够实现任务编排、数据处理和系统集成。尽管工作流被广泛使用，但构建工作流往往很复杂，通常需要通过低代码平台或可视化编程工具进行手动配置。为了简化这一过程，我们探索了生成基础模型，特别是视觉语言模型（VLMs），自动从视觉输入生成结构化工作流的方法。将手绘草图或计算机生成的图表转化为可执行工作流是具有挑战性的，因为自由形式的绘图具有不确定性，图表风格存在差异，且从视觉元素中推断执行逻辑也很难。为了解决这一问题，我们引入了StarFlow，这是一种使用视觉语言模型从草图生成结构化工作流输出的框架。我们创建了一个多样的工作流图表数据集——包括合成的、手动标注的和现实世界的样本——以实现稳健的训练和评估。我们对多个视觉语言模型进行了微调和基准测试，并进行了一系列消融研究，以分析我们方法的优势和局限性。我们的结果显示，微调极大地提高了结构化工作流生成的效果，在该任务上超过大型视觉语言模型。

发布时间: 3/31/2025

查看原文

RedditESS：一个心理健康社交支持交互数据集——了解有效的社交支持以改进AI驱动的支持工具

作者: Zeyad Alghamdi, Tharindu Kumarage, Garima Agrawal, Mansooreh Karami, Ibrahim Almuteb, Huan Liu

arXiv:2503.21888v1 类型: cross 摘要：有效的心理健康支持对于减轻心理压力至关重要。虽然基于大规模语言模型（LLM）的助手在心理健康干预方面显示出了潜力，但现有研究往往主要通过同理心的承认来定义“有效”的支持，忽视了其他重要的方面，如信息指导、社群验证和具体应对策略。为了解决这一局限性，更好地理解什么是有效的支持，我们引入了RedditESS，这是一个源自Reddit帖子的新颖现实世界数据集，包括支持性评论和原始发帖人的后续回复。基于现有的社会科学理论，我们开发了一种集成标注机制来标注支持性评论是否有效，并进行定性评估以确保标注的可靠性。此外，我们通过使用RedditESS来指导LLM进行调整，使其能够生成更具有情境相关性和真正有帮助的支持性回应。通过扩展对有效支持的理解，我们的研究为先进的AI驱动心理健康干预铺平了道路。

发布时间: 3/31/2025

查看原文

中心凹实例分割

作者: Hongyi Zeng, Wenxuan Liu, Tianhua Xia, Jinhui Chen, Ziyun Li, Sai Qian Zhang

arXiv:2503.21854v1 Announce Type: cross 摘要：实例分割是增强现实和虚拟现实（AR/VR）的关键，因为它使得精确的物体识别和交互成为可能，从而增强虚拟与现实世界元素的整合，提供沉浸式的体验。然而，分割的高度计算开销限制了其在资源受限的AR/VR设备上的应用，导致处理延迟增大并降低了用户体验。与传统场景不同，AR/VR用户通常在其视野内只关注几个区域，然后才改变视角，这允许分割集中在注视特定的区域上。这一洞察驱使了对高效分割方法的需求，这些方法优先处理感兴趣的实例，从而减少计算负担并提高实时性能。在本文中，我们提出了一种视网膜实例分割（FovealSeg）框架，利用实时用户注视数据仅在感兴趣的实例上执行实例分割，从而实现显著的计算节约。评估结果表明，FSNet 在 ADE20K 上的 IoU 达到 0.56，在 LVIS 上达到 0.54，显着优于基线。代码可在 https://github.com/SAI- 获取。

发布时间: 3/31/2025

查看原文

图像、视频和音频分类器的自动新闻视频分割比较分析

作者: Jonathan Attard, Dylan Seychell

arXiv:2503.21848v1 声称类型: cross 摘要：新闻视频需要高效的內容组织和检索系统，但其非结构化特性对自动处理提出了重大挑战。本文提出了对图像、视频和音频分类器进行自动新闻视频分割的全面对比分析。这项工作展示了开发和评估了多种深度学习方法，包括ResNet、ViViT、AST和多模态架构，用于分类五种不同类型的片段：广告、故事、演播室场景、过渡和可视化。使用包含41个新闻视频和1,832个场景片段的自标注数据集，我们的实验表明，基于图像的分类器在准确率方面表现出色（84.34%），优于更为复杂的时序模型。特别地，ResNet架构在性能上超过了最先进的视频分类器，同时所需计算资源明显较少。二元分类模型在过渡（94.23%）和广告（92.74%）分类上获得了较高的准确率。这些发现推进了新闻视频分割有效架构的理解，并为在媒体应用中实现自动内容组织系统提供了实用见解，包括媒体归档、个性化内容分发和智能视频搜索。

发布时间: 3/31/2025

查看原文

ReCoM: 基于循环嵌入变换器的现实语音同步运动生成

作者: Yong Xie, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang

arXiv:2503.21847v1 类型：交叉摘要：我们提出了 ReCoM，一个高效框架，用于生成与语音同步的高保真和可泛化的身体动作。核心创新在于递归嵌入变换器（RET），它将动态嵌入正则化（DER）整合到 Vision Transformer（ViT）的核心架构中，以明确建模共言语动动态。这种架构能够同时建模空间-时间依赖性，从而通过连贯的动作合成增强手势的自然性和保真度。为了提高模型的鲁棒性，我们引入了所提出的 DER 策略，为模型配备了噪声抗性和跨域泛化的双重能力，从而改善了对未见过的语音输入的零样本动作生成的自然性和流畅性。为了缓解自回归推理固有的局限性，包括累积误差和有限的自我纠正，我们提出了迭代重建推理（IRI）策略。IRI 通过循环姿态重建精细动作序列，由两个关键组成部分驱动：（1）无辅助监督的情况下，分类器无指导的指导性提高了生成姿势与真实姿势之间的分布对齐，（2）时间平滑过程消除了帧间突变过渡，同时确保动机构连续性。基准数据集上的广泛实验证明了 ReCoM 的有效性，其在各项指标上都达到了最佳性能。值得注意的是，它将 Fréchet 动作距离（FGD）从 18.70 降低到 2.48，展示了动作真实感的 86.7% 的提升。我们的项目页面是 https://yong-xie-xy.github.io/ReCoM/。

发布时间: 3/31/2025

查看原文

LightSNN：轻量级稀疏准确脉冲神经网络架构搜索

作者: Yesmine Abdennadher, Giovanni Perin, Riccardo Mazzieri, Jacopo Pegoraro, Michele Rossi

arXiv:2503.21846v1 类别: cross 摘要: 好的脉冲神经网络(SNNs)因其节能性、固有的激活稀疏性以及适用于边缘设备的实时处理能力而受到高度评价。然而，目前大多数SNN方法采用的传统人工神经网络(ANNs)结构类似，导致在应用于SNNs时性能不足。尽管SNNs在节能方面表现出色，但在使用传统架构时，它们的准确性通常低于传统ANNs。为应对这一问题，本文提出了一种名为LightSNN的快速且高效的脉冲神经网络架构搜索(NAS)技术，该技术专门针对SNNs，能够自主利用最合适的架构，通过强制稀疏性在准确性和效率之间取得良好平衡。基于脉冲NAS网络(SNASNet)框架，我们利用包括反向连接的基于细胞的搜索空间构建了一个无需训练的修剪基NAS机制。我们的技术通过具有稀疏性意识的汉明距离适应性评估，对不同数据样本的多种脉冲激活模式进行评估。我们在静态数据集(CIFAR10和CIFAR100)和神经形态数据集(DVS128-Gesture)上进行了彻底的实验。我们的LightSNN模型在CIFAR10和CIFAR100上达到了最先进的结果，DVS128-Gesture数据集上的性能提高了4.49%，并且显著缩短了搜索时间，特别地，与SNASNet相比，搜索时间加快了98倍，在DVS128-Gesture数据集上，我们的模型比现有最佳方法快30%。

发布时间: 3/31/2025

查看原文