arXiv 论文列表

作者: Racheal Mukisa, Arvind K. Bansal

arXiv:2504.13415v1 类别: cross 摘要: 我们提出了一种基于深度学习的增强模型，用于从心脏磁共振（CMR）图像中分割左心室、右心室和心肌疤痕组织。所提出的技术结合了UNet、通道和空间注意力、基于边缘检测的跳过连接以及深度监督学习，以提高CMR图像分割的准确性。使用多个通道处理图像以生成多个特征图。我们构建了一种基于双重注意力的模型，以集成通道和空间注意力。从特征图中提取的边缘用于跳过连接，以改进重构图像。使用深层监督学习减少了基于深度神经网络分类中固有的消失梯度问题。描述了基于双重注意力模型的算法、相应的实现和性能结果。性能结果表明，这种方法达到了很高的准确度：98%的Dice相似度分数（DSC）和显着较低的Hausdorff距离（HD）。在DSC和HD方面，该性能结果超过了其他领先技术。

发布时间: 4/21/2025

查看原文

量子神经网络中的自适应非局域可观测性

作者: Hsin-Yi Lin, Huan-Hsin Tseng, Samuel Yen-Chi Chen, Shinjae Yoo

arXiv:2504.13414v1 类型:交叉摘要：常规的量子机器学习中的变量子态电路（VQCs）通常依赖于固定的厄米算符，通常是由Pauli算符构建而成的。受海森堡图景的启发，我们提出了一种自适应非局域测量框架，这显著提高了量子电路的模型复杂度。我们引入了具有演化参数的动态厄米算符，表明优化VQC旋转对应的是在可观测量空间中追踪一条路径。这种观点揭示了标准VQCs仅仅是海森堡表示的特殊情况。此外，我们显示了适当地将变量化旋转与非局域可观测量结合可以增强量子比特间的相互作用和信息混合，允许灵活的电路设计。介绍了两种非局域测量方案，数值模拟在分类任务上的结果显示，我们的方法优于常规VQCs，提供了一种更强大且资源高效的量子神经网络方法。

发布时间: 4/21/2025

查看原文

基于LoRA的约束关键参数变化的连续学习方法

作者: Shimou Ling, Liang Zhang, Jiangwei Zhao, Lili Pan, Hongliang Li

arXiv:2504.13407v1 宣布类型:跨平台摘要：基于LoRA的持续学习代表了一种利用预训练模型进行下游持续学习任务的有前途的方法。最近的研究表明，正交LoRA调优有效地减轻了遗忘现象。然而，这项工作揭示了在正交LoRA调优下，预任务的关键参数在学习后任务后仍然会显著变化。为了解决这个问题，我们直接建议在学习后任务之前，冻结Vision Transformer (ViT) 预任务中最重要的参数矩阵。此外，在正交LoRA调优的基础上，我们提出了基于QR分解的正交LoRA组合（LoRAC），这可能进一步增强我们方法的可塑性。详细的消融研究和广泛的比较表明了我们提出的方法的有效性。我们的结果表明，我们的方法在若干知名的持续学习基准测试中达到了最先进的（SOTA）性能。例如，在Split CIFAR-100数据集中，我们的方法在准确性上提高了6.35%，遗忘率降低了3.24%，优于之前的几种方法。我们的代码可在 https://github.com/learninginvision/LoRAC-IPC 获取。

发布时间: 4/21/2025

查看原文

LangCoop: 语言辅助的协作驾驶

作者: Xiangbo Gao, Yuheng Wu, Rujia Wang, Chenxi Liu, Yang Zhou, Zhengzhong Tu

arXiv:2504.13406v1 类型: cross 摘要: 多智能体协作通过使多个连接智能体之间能够分享信息，在增强自主驾驶系统的安全性、可靠性和机动性方面具有巨大的潜力。然而，现有的多智能体通信方法受到现有通信媒体限制的影响，包括高带宽需求、智能体异构性和信息丢失。为了解决这些挑战，我们提出了一种名为LangCoop的新范式，该范式利用自然语言作为紧凑且表达力强的介智能体通信的媒介。LangCoop具有两个关键创新：Mixture Model Modular Chain-of-thought (M³CoT)，用于结构化的零样本视觉语言推理，以及Natural Language Information Packaging (LangPack)，用于高效地将信息打包成简洁的语言基讯息。通过在CARLA模拟中进行的广泛实验，我们证明LangCoop与基于图像的通信相比，在通信带宽上实现了显著的96%的减少（每条消息少于2KB），同时在闭环评估中保持了竞争力的驾驶性能。

发布时间: 4/21/2025

查看原文

面向自主驾驶安全的零样本新型危险物体检测多 Agent 视觉-语言系统的研究

作者: Shashank Shriram, Srinivasa Perisetla, Aryan Keskar, Harsha Krishnaswamy, Tonko Emil Westerhof Bossen, Andreas M{\o}gelmose, Ross Greer

arXiv:2504.13399v1 公告类型: cross 摘要: 在视觉数据中检测异常危险，尤其是在视频流中，是自动驾驶中的一个关键挑战。现有的模型往往难以应对难以预测且超出预定义类别范围的意外危险。在这篇论文中，我们提出了一种多模态方法，结合视觉-语言推理与零样本物体检测，以提高危险识别和解释能力。我们的管道包括一个视觉-语言模型（VLM）和一个大型语言模型（LLM），用于在交通场景中检测危险物体。我们通过结合OpenAI的CLIP模型，将预测的危险与边界框注释进行匹配，从而提高定位准确性。为了评估模型性能，我们通过去除噪声并扩展基础的COOOL（Challenge-of-Out-of-Label）异常检测基准数据集，创建了一个包含完整自然语言描述的地面真值数据集，用于危险注释。我们使用余弦相似度定义了一种危险检测和标注评估方法，该评估方法考虑了每个视频中预测的危险描述与标注地面真值之间的语义相似性。此外，我们还提供了一组工具，以实现大规模危险检测数据集的结构化和管理。我们的研究结果强调了当前基于视觉-语言的方法的优点和局限性，为未来自动驾驶危险检测系统的改进提供了见解。我们的模型、脚本和数据可以在https://github.com/mi3labucm/COOOLER.git找到。

发布时间: 4/21/2025

查看原文

基于深度学习的心肌和心室的医学影像语义分割

作者: Racheal Mukisa, Arvind K. Bansal

arXiv:2504.13391v1 Announce Type: cross 摘要：自动无创心脏诊断在早期发现心脏疾病和经济实惠的临床管理中起着关键作用。自动诊断涉及自动分割和分析心脏图像。心脏亚结构的精确界定及其形态属性的提取是评估心脏功能和诊断如心肌病、瓣膜病、室间隔穿孔相关异常以及血液流动速率等心血管疾病的重要步骤。语义分割在像素级别标注CMR图像，并将其亚组件本地化，以促进异常的检测，包括随着肌肉异常的心老化心脏的心脏壁运动异常、血管异常以及瓣膜异常。在本文中，我们描述了一个模型以改进CMR图像的语义分割。该模型在下采样UNet过程中提取边缘属性和上下文信息，并在上采样过程中注入这些信息，以定位三个主要心脏结构：左心室腔（LV）、右心室腔（RV）和左心室心肌（LMyo）。我们介绍了一个算法及其性能结果。使用实际图像和分割图像之间的相似度度量，将我们的模型与先前的领先模型进行比较，显示我们的方法提高了Dice相似系数（DSC）2%-11%，并降低了Hausdorff距离（HD）1.6至5.7毫米。

发布时间: 4/21/2025

查看原文

解决量子退火中的小型嵌入问题及评估最先进的算法性能

作者: Aitor G\'omez-Tejedor, Eneko Osaba, Esther Villar-Rodriguez

arXiv:2504.13376v1 宣告类型: cross 摘要: 本文研究了从伊辛模型映射到量子退火处理器的变量问题，即次要嵌入问题。这一研究主要动机来自于量子退火器在解决与处理器架构相匹配的问题时与不具有硬件原生拓扑的问题之间的性能差异观察到的现象。我们的研究有两个主要目标：i) 分析嵌入质量对D-Wave Systems量子退火器性能的影响，ii) 评估Minorminer算法生成的嵌入质量，Minorminer是D-Wave提供的算法，在文献中普遍被认为是标准的次要嵌入技术。针对第一个目标，我们的实验揭示了嵌入的平均链长与所采样解决方案的相对误差之间存在明显的相关性。这强调了嵌入质量对量子退火性能的直接影响。对于第二个目标，我们专注于Minorminer技术，评估其问题嵌入能力、生成嵌入的质量以及结果的稳健性。我们还将其性能与另一种由D-Wave开发的Clique Embedding算法进行了比较，Clique Embedding是一种确定性算法，旨在将完全连接的伊辛模型嵌入到量子退火处理器中，作为最坏情况的场景。结果显示，Minorminer仍然有很大改进空间，因为它未能始终优于最坏情况场景。

发布时间: 4/21/2025

查看原文

定价AI模型准确性

作者: Nikhil Kumar

arXiv:2504.13375v1 Announce Type: 交叉摘要：本文探讨了一个AI模型市场，在该市场中，公司竞争以提供准确的模型预测，而消费者对模型准确性有不同的偏好。我们开发了一个消费者-公司寡头模型，分析竞争如何影响公司提高模型准确性的动机。每家公司都旨在将其模型的误差最小化，但这种选择往往并不总是最优的。令人反直觉的是，我们在一个竞争市场中发现，提高整体准确性的公司并不一定能够提高其利润。相反，每个公司的最优决策是投资于其具有竞争优势的误差维度。通过将模型误差分解为假阳性率和假阴性率，公司可以通过投资来降低每个维度的误差。公司在其优势维度投资会使其更富有，而在劣势维度投资会使其更贫穷。盈利性投资虽然会不利地影响消费者，但会增加整体福利。

发布时间: 4/21/2025

查看原文

AI对网络攻防平衡及网络冲突性质的影响

作者: Andrew J. Lohn

arXiv:2504.13371v1 宣告类型：交叉摘要：与其他冲突领域不同，与其他可能因AI带来的高风险领域也不相同，网络领域是固有的数字领域，AI培训与网络应用之间有着紧密的反馈循环。网络领域可能从AI中获得最大的最早的影响，因此理解随着AI的继续发展网络领域可能发生的变化是很重要的。我们的方法是回顾文献，收集了九个提出在网络冲突中获得进攻优势的论点，以及九个提出在网络冲突中获得防守优势的论点。我们还包括了Healey、Jervis和Nandrajog分别收集的另外四十八个论点，以体现网络冲突和竞争的特性。然后我们考虑了随着AI的不同发展阶段，这些论点和命题如何变化。我们发现，由于网络领域的复杂性，无法简单地用单一答案来回答AI是否会总体上增强进攻或防御。AI会改善一些方面，阻碍另一些方面，并且还有一些方面不会改变。我们收集并呈现了我们认为AI将如何影响网络进攻-防御平衡及网络冲突和竞争特性的四十四种方式。

发布时间: 4/21/2025

查看原文

最优判别器加权 imitation 视角的强化学习

作者: Haoran Xu, Shuozhe Li, Harshit Sikchi, Scott Niekum, Amy Zhang

arXiv:2504.13368v1 交叉类型：cross 摘要：我们引入了迭代双强化学习（IDRL），这是一种新的方法，采用最优判别器加权模仿观点来解决强化学习（RL）。我们的方法受到一个简单实验的启发，在该实验中，我们发现使用离线数据集加上额外的专家数据集训练判别器，然后进行判别器加权的行为克隆可以对各种类型的数据集产生很强的效果。虽然最优判别器权重与双RL中的学习访问分布比例非常相似，但我们发现当前的双RL方法无法正确估计该比例。在IDRL中，我们提出了一种纠正方法，以迭代方式逼近给定没有额外专家数据集的离线数据集中的最优访问分布比例。在每次迭代中，IDRL使用上一次迭代中学习的比例去除零权重的亚优过渡，并在剩余子数据集上运行双RL。这可以被视为用上一次迭代优化的访问分布替换行为访问分布，理论上提供了更接近最优判别器权重的改进访问分布比例的课程。我们使用各种类型的离线数据集验证了IDRL的有效性，包括D4RL数据集和更真实的受污染演示。无论是在性能还是稳定性方面，IDRL在所有数据集中都超过了强大的原始RL和双RL基准。

发布时间: 4/21/2025

查看原文