arXiv 论文列表

作者: Yunkai Zhang, Shiyin Wei, Yong Huang, Yawu Su, Shanshan Lu, Hui Li

arXiv:2504.11477v1 公告类型: cross 摘要: 基于计算机视觉(CV)的结构损伤识别模型在分类和定位损伤方面显示出显著的准确性。然而，这些模型在实际工程应用中存在几个关键的限制，特别是在土木工程(CE)领域。首先，它们识别损伤类型的能力受到限制，无法全面分析真实世界CE结构中多种复杂条件。其次，这些模型缺乏语言能力，无法通过自然语言描述结构损伤特性。随着人工智能(AI)的不断进步，大型多模态模型(LMMs)已作为一种变革性的解决方案出现，能够统一编码和对齐文本和视觉数据。这些模型可以自主生成详细的结构损伤描述性叙述，同时在各种场景和任务中表现出强大的泛化能力。本研究引入了SDIGLM，一种基于开源VisualGLM-6B架构开发的创新LMM，用于结构损伤识别。为了解决将LMM适应CE复杂多变的工作环境的挑战，本文整合了一个基于U-Net的语义分割模块，生成缺陷分割图作为视觉链式思维(CoT)。此外，构建了一个多轮对话微调数据集以增强逻辑推理能力，并通过提示工程技术形成了语言CoT。借助这种多模态CoT，SDIGLM在结构损伤识别中超越了一般用途的LMMs，在各种基础设施类型中达到了95.24%的准确性。此外，该模型有效地描述了损伤特性，如孔径大小、裂缝方向和腐蚀严重程度。

发布时间: 4/17/2025

查看原文

基于ROI-rank基于掩码的局部时空特征增强变换器用于ADHD诊断

作者: Byunggun Kim, Younghun Kwon

arXiv:2504.11474v1 类型: cross 摘要：在现代社会中，注意缺陷多动障碍（ADHD）是不仅在儿童中，而在成人中也发现的一种常见的精神疾病。在此背景下，我们提出了一种ADHD诊断变换器模型，该模型可以从静息态功能性磁共振成像（rs-fMRI）中有效地同时找到重要的脑空间-时间生物标志物。该模型不仅学习空间-时间个体特征，还学习与全注意力机制相关的ADHD诊断结构之间的关联。特别是，它专注于学习局部血氧水平依赖（BOLD）信号，并区分脑中的重要感兴趣区域（ROI）。具体来说，ADHD诊断变换器提出的方法如下。首先，我们设计了一个基于CNN的嵌入块，以在脑区注意力中获得更具表现力的嵌入特征。该块是基于先前的基于CNN的ADHD诊断模型构建的，用于变换器。其次，在个体空间-时间特征注意力方面，我们将注意力方法变为局部时间注意力和基于ROI排名的遮罩。对于fMRI的时间特征，局部时间注意力仅通过简单的窗口遮罩就能学习局部BOLD信号特征。对于fMRI的空间特征，基于ROI排名的遮罩可以根据注意力分数区分具有高相关性的ROI关系，从而提供更具体的ADHD诊断生物标志物。我们使用了多种类型的变换器模型进行了实验。为了评估这些模型，我们收集了ADHD-200竞赛所提供来自939个个体的数据。通过这种方式，ADHD诊断的空间-时间增强变换器在其他不同类型的变换器变体中的性能表现更优。（准确率77.78、特异性76.60、敏感性79.22、AUC 79.30）

发布时间: 4/17/2025

查看原文

视觉道德推理与沟通

作者: Warren Zhu, Aida Ramezani, Yang Xu

arXiv:2504.11473v1 宣告类型: cross 摘要：人类可以从多种输入来源中进行道德推断。相比之下，人工智能中的自动化道德推理通常依赖于以文本输入为主的语言模型。然而，道德不仅仅通过语言传达。我们提出了一种计算框架，支持从自然图像中进行道德推断，并通过两个相关任务进行了演示：1）对视觉图像的人类道德判断进行推断；2）分析通过公共新闻传递的道德内容的模式。我们发现，仅基于文本的模型无法捕捉对视觉刺激的人类精细道德判断，但语言-视觉融合模型在视觉道德推断方面提供了更高的精度。此外，将我们的框架应用于新闻数据揭示了新闻类别和地缘政治讨论中的隐含偏见。我们的工作为自动化的视觉道德推断以及在公共媒体中发现视觉道德沟通的模式开辟了途径。

发布时间: 4/17/2025

查看原文

SO-DETR：利用双域特征和知识蒸馏进行小对象检测

作者: Huaxiang Zhang, Hao Zhang, Aoran Mei, Zhongxue Gan, Guo-Niu Zhu

arXiv:2504.11470v1 命名类型: cross 摘要：基于检测变换器的方法在通用目标检测方面取得了重大进展。然而，有效检测小目标仍然存在挑战。一个关键难题是现有编码器在高效融合低级特征方面存在困难。此外，查询选择策略也没有很好地针对小目标进行调整。为了解决这些挑战，本文提出了一种高效的模型，名为小型对象检测变换器（SO-DETR）。该模型包括三个关键组件：一个基于双域的混合编码器、一种增强的查询选择机制和一种知识蒸馏策略。基于双域的混合编码器将空间域和频率域结合起来，有效地融合了多尺度特征。这种方法增强了高分辨率特征的表示，同时保持相对较低的计算开销。增强的查询选择机制通过使用扩展的IoU动态选择高分锚框来优化查询初始化，从而提高查询资源的分配。此外，通过引入轻量级骨干网络并实现知识蒸馏策略，我们为小目标开发了一种高效的检测器。在VisDrone-2019-DET和UAVVaste数据集上的实验结果表明，SO-DETR在与现有方法相似的计算需求下表现出色。项目页面可在https://github.com/ValiantDiligent/SO_DETR获取。

发布时间: 4/17/2025

查看原文

分割模型理解血管结构吗？一种基于Blob的解释性框架

作者: Guillaume Garret, Antoine Vacavant, Carole Frindel

arXiv:2504.11469v1 宣布类型：交叉摘要：深度学习模型在医学图像分割方面取得了令人印象深刻的性能，但其黑箱性质限制了其在临床中的应用。在血管应用中，可靠的分割应该依赖于局部图像提示和全局解剖结构，如血管的连接性和分叉。然而，模型利用这种全局上下文的程度仍然不清楚。我们提出了一种用于3D血管分割的新颖可解释性管道，结合了基于梯度的归因、图引导的点选择和基于斑块的显著图分析。通过从真实数据提取的血管图，我们定义了具有解剖学意义的兴趣点（POIs），并通过显著图评估输入体素的贡献。使用自定义的斑块检测器在全局和局部规模上对这些显著图进行了分析。将该方法应用于IRCAD和Bullitt数据集，我们的分析表明，模型的决策主要由靠近POIs的高局部化归因斑块主导。归因特征与血管级别的属性（如厚度、管状性或连通性）几乎没有关联，这表明模型在利用全局解剖结构推理方面的作用有限。我们的结果强调了结构化可解释性工具的重要性，并指出了分割模型在捕捉全局血管上下文方面的当前局限性。

发布时间: 4/17/2025

查看原文

语义 Matters：多模态特征情感分析

作者: Tobias Hallmen, Robin-Nico Kampa, Fabian Deuser, Norbert Oswald, Elisabeth Andr\'e

arXiv:2504.11460v1 Announce Type: cross 摘要：在本研究中，我们提出了在第8届野生情感与行为分析研讨会和竞赛中的两项任务——行为 ambivalence/犹豫 (BAH) 识别挑战和情感模仿强度 (EMI) 估计挑战中的方法。基于先前的工作，我们利用一个在大量播客数据上预训练的 Wav2Vec 2.0 模型来提取各种音频特征，捕捉到语言和副语言信息。我们的方法结合了从 Wav2Vec 2.0 中提取的情感 - 激情 - 威权 (VAD) 模块、类似于 BERT 的编码器以及一个视觉变换器 (ViT)，预测随后通过长短期记忆（LSTM）架构进行时间建模。在这一版本中，我们将文本和视觉模态整合到分析中，认识到语义内容提供了宝贵的情境线索，并强调语言的实际意义往往比其声学对应物提供的更关键的洞察。引入视觉模态有助于在某些情况下更精确地解释文本模态。这种结合的方法在基准方法上取得了显著的性能提升。

发布时间: 4/17/2025

查看原文

适配世界模型以在3D游戏中进行轨迹跟踪

作者: Marko Tot, Shu Ishida, Abdelhak Lemkhenter, David Bignell, Pallavi Choudhury, Chris Lovett, Luis Fran\c{c}a, Matheus Ribeiro Furtado de Mendon\c{c}a, Tarun Gupta, Darren Gehring, Sam Devlin, Sergio Valcarcel Macua, Raluca Georgescu

arXiv:2504.12299v1 宣告类型: 新摘要：模仿学习是一种利用专家知识训练代理的强大工具，复制给定轨迹是其中必不可少的一部分。在复杂的环境中，比如现代3D视频游戏，分布偏移和随机性需要使用超出简单动作重播的稳健方法。在本研究中，我们使用不同编码器和策略头部应用逆动力学模型（IDM），在现代3D视频游戏——《边缘出血》中进行轨迹跟随。此外，我们还调查了几种未来对齐策略，以解决由逍遥不确定性及其代理的不完善性引起的分布偏移。我们测量了参考轨迹和代理轨迹之间的轨迹偏差距离以及第一个显著偏差点，并表明最佳配置取决于所选择的设置。我们的结果表明，在多样数据设置下，采用从零开始训练的编码器和GPT风格策略头部表现最佳；在低数据条件下，使用DINOv2编码器和GPT风格策略头部的结果最好；在多样数据设置下预先训练并在特定行为设置下微调的GPT风格和MLP风格策略头部具有相似的表现。

发布时间: 4/17/2025

查看原文

通过大规模弱监督学习提升阿拉伯语语音识别

作者: Mahmoud Salhab, Marwan Elghitany, Shameed Sait, Syed Sibghat Ullah, Mohammad Abusheikh, Hasan Abusheikh

arXiv:2504.12254v1 宣布类型: 新论文摘要：自动语音识别（ASR）在各种应用中对于人机交互至关重要，比如对话代理、工业机器人、呼叫中心自动化以及自动字幕生成。然而，开发高性能的ASR模型仍然充满挑战，特别是对于资源有限的语言（如阿拉伯语），这是因为缺乏大量的、标注的语音数据集，这些数据集的生产和标注成本高昂且耗时。在本文中，我们采用弱监督学习，利用Conformer架构训练了一个阿拉伯语ASR模型。我们的模型从15,000小时的弱标注语音数据中训练而来，这些数据覆盖了现代标准阿拉伯语（MSA）和方言阿拉伯语（DA），从而消除了对昂贵的手动标注的需要。尽管缺乏人工验证的标签，但我们的方法在标准基准测试上达到了目前最先进的（SOTA）性能，超越了阿拉伯语ASR领域的所有先前努力。通过展示弱监督作为传统监督方法的可扩展且成本效益高的替代方案的有效性，为我们提供了通往改善低资源环境下的ASR系统的道路。

发布时间: 4/17/2025

查看原文

面向地球观测的大型语言模型代理

作者: Chia Hsiang Kao, Wenting Zhao, Shreelekha Revankar, Samuel Speas, Snehal Bhagat, Rajeev Datta, Cheng Perng Phoo, Utkarsh Mall, Carl Vondrick, Kavita Bala, Bharath Hariharan

arXiv:2504.12110v1 通告类型: 新摘要: 地球观测(Earth Observation, EO)为环境监测、灾害管理、气候科学及其他科学领域提供了关键的行星数据。这里我们询问: AI 系统是否准备好进行可靠的地球观测了？我们引入了 \datasetnamenospace，这是一个基于 NASA 地球观测站文章的数据集，共包含 140 个是/否问题，涵盖了 13 个主题和 17 个卫星传感器。使用 Google 地球引擎 API 作为工具，大语言模型代理只能实现 33% 的准确率，因为代码无法运行超过 58% 的情况。通过对合成数据进行微调，我们提高了开源模型的故障率，这使得较小的模型（如 Llama-3.1-8B）能够达到与大型模型（如 DeepSeek-R1）相当的准确性。总之，我们的研究成果指出了 AI 代理在自动化地球观测之前需要解决的重要挑战，并提出了前进的道路。该项目页面可在 https://iandrover.github.io/UnivEarth 查看。

发布时间: 4/17/2025

查看原文

基于推理的初创企业评估AI（R.A.I.S.E.）：一种记忆增强的多步决策框架

作者: Jack Preuveneers, Joseph Ternasky, Fuat Alican, Yigit Ihlamur

arXiv:2504.12090v1 公告类型: 新颖摘要: 我们提出了一种新颖的框架，该框架通过决策树的可解释性与大型语言模型（LLMs）的高级推理能力之间的桥梁，预测初创企业的成功。我们的方法利用链式思考提示生成详细的推理日志，随后将其提炼成结构化且人类可以理解的逻辑规则。该流程集成了多个增强功能——高效数据摄取、两步精炼过程、候选样本集萃、模拟强化学习评分以及持久内存——以确保决策的稳定性以及输出的透明性。对精心挑选的初创企业数据集进行的实验评估表明，与独立的OpenAI o3模型相比，我们的综合管道在精度方面提高了54%，从0.225提升到0.346，在准确率方面提高了50%，从0.46提升到0.70。值得注意的是，我们的模型比随机分类器的精度提高了2倍以上（16%）。通过将先进的AI推理与显式的规则解释相结合，我们的方法不仅增强了传统的决策过程，还促进了专家介入和持续的政策调整。这项工作为在高风险投资环境中以及其他需要透明和数据驱动见解的领域实施以LLM为动力的可解释决策框架奠定了基础。

发布时间: 4/17/2025

查看原文