arXiv 论文列表

MGD-SAM2：多视图引导细节增强的通用类别分割模型2，用于高分辨率类别无关分割

作者: Haoran Shen, Peixian Zhuang, Jiahao Kou, Yuxin Zeng, Haoying Xu, Jiangyun Li

arXiv:2503.23786v1 多视图类型：交叉摘要：段切一切模型（SAMs）作为视觉基础模型，在各种图像分析任务中展现了出色的性能。尽管它们具有强大的泛化能力，但在高分辨率类别无关分割（HRCS）任务中进行精细细节分割时，SAMs 遇到了挑战，因为它们在直接处理高分辨率输入和低分辨率掩码预测方面存在限制，并且依赖于准确的手动提示。为了解决这些限制，我们提出了 MGD-SAM2，它将 SAM2 与全局图像和局部片段之间的多视图特征交互结合，以实现精确的分割。MGD-SAM2 结合了预训练的 SAM2 与四个新模块：多视图感知适配器（MPAdapter）、多视图互补增强模块（MCEM）、层次多视图交互模块（HMIM）以及细节精炼模块（DRM）。具体而言，我们首先引入 MPAdapter 以增强 SAM2 编码器对 HRCS 图像中局部细节和全局语义的提取。然后提出了 MCEM 和 HMIM 以通过在跨多尺度中聚合多视图特征进一步利用局部纹理和全局上下文。最后，设计了 DRM 以生成逐渐恢复的高分辨率掩码预测，补偿直接上采样低分辨率预测图所导致的细微细节损失。实验结果表明，我们的模型在多个高分辨率和常规分辨率数据集上具有优越性能和强大的泛化能力。代码将在 https://github.com/sevenshr/MGD-SAM2 可用。

发布时间: 4/1/2025

查看原文

Winograd挑战句并行 corpora 及常识分类.Parallel Corpus of Paraphrased Winograd Grande Sentences with Common Sense Categorization

作者: Ine Gevers, Victor De Marez, Luna De Bruyne, Walter Daelemans

arXiv:2503.23779v1 交叉类型：摘要：在本研究中，我们更详细地探讨了Winograd schema挑战如何用于评估LLMs的常识推理能力。具体来说，我们在流行的大规模WinoGrande基准测试上评估了不同规模的生成模型。我们发布了WinoWhat这一新的语料库，在该语料库中，WinoGrande验证集的每个实例都被重述。此外，我们在挑战中对五个常识知识类别进行了性能评估，提供更细致的见解，了解对于LLMs而言哪些类型的知识更具挑战性。令人惊讶的是，所有模型在WinoWhat上表现明显更差，这表明在WinoGrande上的LLMs推理能力可能被高估了。为了验证这种差异是否是基准记忆效应的结果，我们将基准实例与LLMs训练数据进行匹配，并创建了两个测试套件。我们观察到，记忆效应在WinoGrande上的模型性能方面的影响非常小。

发布时间: 4/1/2025

查看原文

WaveFormer：一种基于小波驱动特征表示的高效医疗图像分割3D Transformer

作者: Md Mahfuz Al Hasan, Mahdi Zaman, Abdul Jawad, Alberto Santamaria-Pang, Ho Hin Lee, Ivan Tarapov, Kyle See, Md Shah Imran, Antika Roy, Yaser Pourmohammadi Fallah, Navid Asadizanjani, Reza Forghani

arXiv:2503.23764v1 宣告类型: cross 摘要: 基于变换器的架构通过有效地建模长程依赖性在医疗图像分析方面取得了进展，但在3D设置中经常因内存开销巨大和无法充分捕捉细微局部特征而遇到困难。我们通过引入一种新型3D变换器WaveFormer解决了这些限制：i) 利用特征在频域的基本性质进行上下文表示；ii) 受人类视觉识别系统自顶向下的机制启发，使其成为一种生物上合理的架构。通过在多个尺度上应用离散小波变换(DWT)，WaveFormer既能保持全局上下文也能保留高频细节，同时用高效的基于小波的总结和重构替换密集的上采样层。这显著减少了参数数量，这对于计算资源和训练时间有限的实际部署至关重要。此外，该模型具有通用性，容易适应各种应用。在BraTS2023、FLARE2021和KiTS2023上的评估显示，其性能与最先进的方法相当，同时计算复杂度大幅降低。

发布时间: 4/1/2025

查看原文

LANID: LLM辅助的新意图发现

作者: Lu Fan, Jiashu Pu, Rongsheng Zhang, Xiao-Ming Wu

arXiv:2503.23740v1 映射类型: 交叉摘要：面向任务的对话系统（TODS）经常面临遇到新意图的挑战。新意图发现（NID）是一个关键任务，旨在识别这些新颖的意图，同时保留在现有意图上的识别能力。以前将TODS适应新意图的努力往往面临语义表示不足的问题，或者依赖外部知识，而外部知识往往是不可扩展或不灵活的。最近，大型语言模型（LLMs）展示了强大的零样本能力；然而，它们的规模对于涉及大量查询的实际应用来说可能不切实际。为了通过利用LLMs来解决现有NID方法的局限性，我们提出了一种LANID框架，该框架使用LLMs的指导来增强轻量级NID编码器的语义表示。具体而言，LANID 使用$K$-最近邻和基于密度的空间噪声应用程序聚类（DBSCAN）算法从训练集中采样选择的对话轮次对。然后，它查询LLMs以确定这些轮次对之间的关系。该过程产生的数据被用于设计对比微调任务，然后用于训练一个带有对比三元组损失的小型编码器。我们的实验结果表明，所提出的方法在三个不同的NID数据集中均有效，超越了在无监督和半监督设置中的强大基线。我们的代码可在 https://github.com/floatSDSDS/LANID 获取。

发布时间: 4/1/2025

查看原文

基于计算机视觉和机器学习的智能杠铃深蹲指导系统研究

作者: Yinq-Rong Chern, Yuhao Lee, Hsiao-Ching Lin, Guan-Ting Chen, Ying-Hsien Chen, Fu-Sung Lin, Chih-Yao Chuang, Jenn-Jier James Lien, Chih-Hsien Huang

arXiv:2503.23731v1 交叉公告类型摘要：目的：研究发现，力量训练可以减少任何年龄段慢性疾病和身体退化的发病率。因此，拥有一个运动诊断系统对于单独进行训练至关重要。因此，本研究开发了一个基于人工智和计算机视觉的杠铃深蹲指导系统，该系统具有实时模式，在每次深蹲后立即诊断问题并提供反馈。此外，回放模式允许用户检查他们之前的深蹲并查看评论。最初，确定了杠铃深蹲的四项主要特征：身体关节角度、背屈、膝部与髋部运动的比例以及杠铃稳定性。方法：我们从77名参与者中收集了8,151个深蹲动作，并将其分类为良好的深蹲动作和六个问题类别。然后，我们使用三种机器学习架构对诊断模型进行了训练。此外，本研究采用SHapley Additive exPlanations (SHAP) 方法提高问题预测的准确性，并通过特征选择减少计算时间。结果：六个问题的F1分数分别为86.86%、69.01%、77.42%、90.74%、95.83%和100%。每个深蹲诊断耗时不到0.5秒。最后，本研究使用两个参与者小组对所提出的系统的功效进行了测试，一组使用该系统进行训练，另一组不使用系统进行训练。结果表明，使用该系统的参与者在深蹲技巧方面表现出显著的改善，这种改善不仅由系统自身评估得出，还由专业举重教练进行评估。结论：这是一项综合研究，将人工智能、计算机视觉和多变量处理技术结合起来，旨在构建一个实时且用户友好的杠铃深蹲反馈和训练系统。

发布时间: 4/1/2025

查看原文

KOFFVQA：一种客观评估的自由格式多模态问答基准，适用于韩语大型视觉-语言模型

作者: Yoonshik Kim, Jaeyoon Jung

arXiv:2503.23730v1 交叉通知类型：cross 摘要：近期大型视觉语言模型（VLMs）的出现导致了一系列不同的模型评估基准。尽管如此，我们观察到现有的大多数评估方法存在一个问题，即要么要求模型从预定的回应中选择，牺牲了开放性，要么使用裁判模型评估回应，导致主观和不可靠的评估。此外，我们注意到，在韩语方面缺乏视觉语言模型的基准，这在从更常见的英语基准中分离出来的单独度量方面是必要的，因为生成语言模型的性能根据使用的语言可以有显著差异。因此，我们提出了KOFFVQA，这是一种通用的、自由形式的韩语视觉问答基准，用于评估视觉语言模型。我们的基准包括275个精心设计的问题，每道题都配有一张图片和评估标准，涵盖10个不同的VLM性能方面。评估标准通过允许裁判模型根据预先制定的一套规则来评估每个回应，从而消除了不可靠性的问题。通过以客观的形式定义评估标准，即使是小型开源模型，也可以可靠地在我们的基准上评估模型。除了在我们的基准上评估大量的现有视觉语言模型外，我们还实验证明，使用现有的评分标准进行评估的方法远比现有的方法可靠。我们的评估代码可在https://github.com/maum-ai/KOFFVQA找到。

发布时间: 4/1/2025

查看原文

单模态驱动的多模态情感识别动态融合蒸馏

作者: Jiagen Li, Rui Yu, Huihao Huang, Huaicheng Yan

arXiv:2503.23721v1 交叉公告类型：跨模态摘要：对话中的多模态情绪识别（MERC）在文本、音频和视频中识别情绪状态，这对于智能对话系统和意见分析是必不可少的。现有方法直接强调异模态融合以实现跨模态集成，但由于模态异质性和缺乏有效的指导，往往在多模态学习中表现出方向迷失。在本文中，我们提出了一种名为SUMMER的新颖异质多模态集成框架，利用混合专家和层次跨模态融合以及交互式知识蒸馏。关键组成部分包括稀疏动态混合专家（SDMoE）以捕获动态词汇交互，层次跨模态融合（HCMF）以有效融合异质模态，以及交互式知识蒸馏（IKD），该方法使用预训练的单模态教师在潜在空间和logit空间中指导多模态融合。在IEMOCAP和MELD上的实验显示，SUMMER在识别少数情绪和语义相似情绪方面优于最先进的方法。

发布时间: 4/1/2025

查看原文

基于GNN的候选节点预测器以用于 temporal 图中的影响力最大化

作者: Priyanka Gautam, Balasubramaniam Natarajan, Sai Munikoti, S M Ferdous, Mahantesh Halappanavar

arXiv:2503.23713v1 宣告类型: 交叉摘要：在一个信息在社交媒体上快速传播的时代，有效地识别动态网络中的关键节点至关重要。传统的影响力最大化策略往往难以跟上快速变化的关联和结构，导致错失机会和效率低下。为了解决这个问题，我们提出了一种结合图神经网络（GNN）和双向长短期记忆（BiLSTM）模型的新型基于学习的方法。这种混合框架能够捕捉结构和时间动态，从而允许精确预测种子集选择的候选节点。BiLSTM的双向特性使我们的模型能够从过去和未来的网络状态中分析模式，确保随着时间变化的适应性。通过在每次时间快照中动态适应图的演变，我们的方法提高了种子集计算的效率，实现了在各种网络中预测潜在种子节点时平均90%的准确性。这种方法通过优化用于种子选择的节点数量，显著减少了计算开销。我们的方法特别适用于病毒营销和社交网络分析等领域，因为在这些领域理解时间动态至关重要。

发布时间: 4/1/2025

查看原文

向量评估和评估自主驾驶在安全关键场景中的安全性和稳健性

作者: Jingzheng Li, Xianglong Liu, Shikui Wei, Zhijun Chen, Bing Li, Qing Guo, Xianqi Yang, Yanjun Pu, Jiakai Wang

arXiv:2503.23708v1 安全类型：跨学科摘要：自动驾驶在学术界和工业界取得了显著进展，包括感知任务性能的提升以及端到端自动驾驶系统的开发。然而，自动驾驶的安全性和鲁棒性评估尚未得到足够的关注。当前对自动驾驶的评估通常是在自然驾驶场景下进行的。然而，许多事故往往发生在边缘情况，也称为安全关键场景。这些安全关键场景难以收集，并且目前尚没有明确界定哪些情况构成安全关键场景。在这项工作中，我们探讨了自动驾驶在安全关键场景下的安全性和鲁棒性。首先，我们提供了一种安全关键场景的定义，包括静态交通场景，如对抗攻击场景和自然分布转移，以及动态交通场景，如事故场景。然后，我们开发了一个自动驾驶安全测试平台，全方位评估自动驾驶系统，不仅涵盖感知模块的评估，还包括系统级评估。我们的工作系统地构建了自动驾驶的安全验证流程，为行业提供了建立标准化测试框架的技术支持，并减少了实际道路部署中的风险。

发布时间: 4/1/2025

查看原文

关于Polyak-Lojasiewicz不等式的一些注记及梯度系统的收敛性

作者: Arthur Castello B. de Oliveira, Leilei Cui, Eduardo D. Sontag

arXiv:2503.23641v1 声明类型：交叉摘要：本文探讨了Polyak-Lojasiewicz不等式（PLI）的泛化及其对优化问题中梯度流收敛行为的影响。受到文献中仅对连续时间线性二次调节器（CT-LQR）策略优化问题描述较弱版本的PLI的动机，本文表明，在较弱条件下，梯度流可以全球收敛到成本函数的临界点集并达到最优值，但成本函数满足哪种“类型”的不等式会导致梯度流解的“轮廓”发生显著变化。经过一般的理论分析后，我们将重点放在将CT-LQR策略优化问题适应提出的框架上，表明实际上它不可能以最强的形式满足PLI。随后，我们简要讨论了连续时间和离散时间LQR策略优化之间的差异，并在通过近端梯度流求解的情况下，给出了扩展这一框架到具有L1正则化项的优化问题的直觉。

发布时间: 4/1/2025

查看原文