arXiv 论文列表

作者: Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

arXiv:2412.14810v2 宣布类型: replace-cross 摘要：在医疗保健领域，多模态数据的整合对于开发全面的诊断和预测模型至关重要。然而，在实际应用中，处理缺失数据仍是一项重大挑战。我们引入了MARIA（多模态抗不完整数据注意力机制），这是一种新型的基于变换器的深度学习模型，通过中间融合策略来解决这些挑战。与依赖于填补的传统方法不同，MARIA 使用掩码自注意力机制，仅处理可用数据而不生成合成值。这种方法使其能够有效地处理不完整数据集，提高鲁棒性并减少由填补方法引入的偏差。我们在 8 项诊断和预后任务中，将 MARIA 与 10 种最先进的机器学习和深度学习模型进行了评估。结果显示，MARIA 在性能和对不同数据不完整性水平的鲁棒性方面都优于现有方法，突显了其在关键医疗保健应用中的潜力。

发布时间: 5/1/2025

查看原文

一个学习神经运算器的库

作者: Jean Kossaifi, Nikola Kovachki, Zongyi Li, David Pitt, Miguel Liu-Schiaffini, Robert Joseph George, Boris Bonev, Kamyar Azizzadenesheli, Julius Berner, Valentin Duruisseaux, Anima Anandkumar

arXiv:2412.10354v3 通告类型: replace-cross 摘要: 我们介绍了 NeuralOperator，一个开源的 Python 库，用于操作符学习。神经操作符将神经网络 generalizes 到函数空间之间的映射，而不是有限维欧几里得空间。它们可以在各种离散化给定的输入和输出函数上进行训练和推理，并满足离散化收敛性质。基于 PyTorch，NeuralOperator 提供了一整套用于训练、部署神经操作符模型以及开发新模型的高质量、经过测试的开源工具包。它结合了最先进的模型和高度的自定义性，并为初学者提供了平缓的学习曲线和简单的用户界面。

发布时间: 5/1/2025

查看原文

你命名它，我运行它：一个LLM代理执行任意项目测试

作者: Islem Bouzenia, Michael Pradel

arXiv:2412.10133v2 宣告类型: replace-cross 摘要：能够执行项目中的测试套件在许多场景中都是必不可少的，例如评估代码质量、代码覆盖率，验证开发人员或自动化工具所做的代码更改，以及确保与依赖项的兼容性。尽管其重要性不言而喻，但在实践中执行项目测试套件可能因各种因素而具有挑战性，包括不同的编程语言、软件生态系统、构建系统、测试框架以及其他工具。这些挑战使得创建一种可靠且适用于不同项目的测试执行方法变得更加困难。本文介绍了ExecutionAgent，这是一种自动化的技术，可以为任意项目准备从源代码构建和运行其测试案例的脚本。我们的方法受到人类开发人员如何完成此任务的启发，是一种基于大型语言模型（LLM）的代理，能够自主执行命令并与主机系统交互。代理使用元提示来收集与给定项目相关的最新技术指南，并根据前一步骤的反馈不断改进其过程。我们的评估将ExecutionAgent应用于50个使用14种不同编程语言和许多不同构建和测试工具的开源项目。该方法成功执行了33/50个项目的测试套件，并且其测试结果与真实测试套件执行结果的一致性偏差仅为7.5%。这些结果比之前最佳可用的技术提高了6.6倍。该方法的实施成本合理，平均每个项目执行时间为74分钟，LLM成本为1.6美元。我们设想ExecutionAgent将成为开发人员、自动化编程工具和研究人员的一种有价值的工具，他们在跨众多项目执行测试时都需要这一工具。

发布时间: 5/1/2025

查看原文

FILA：细粒度的视觉语言模型

作者: Shiding Zhu, Wenhui Dong, Jun Song, Yingbo Wang, Yanan Guo, Bo Zheng

arXiv:2412.08378v3 公告类型：替换-交叉摘要：近期，对多模态大规模语言模型（MLLMs）处理高分辨率图像的能力产生了越来越多的兴趣。目前常用的方法是动态裁剪原始高分辨率图像为较小的子图像，然后将这些子图像输入预训练在低分辨率图像上的视觉编码器。然而，这种方法往往会导致原始图像中的对象和连接区域被截断，产生语义断层。为了克服这一限制，我们引入了HyViLM，旨在处理任意分辨率的图像并在编码过程中保留整体上下文。具体来说，我们：(i) 设计了一种新的视觉编码器，称为Hybrid Encoder，不仅编码单个子图像，还能与详细的全局视觉特征进行交互，显著提高模型处理高分辨率图像的能力。(ii) 提出了动态裁剪方法的最佳特征融合策略，有效地利用视觉编码器不同层次的信息。相较于在相同设置下的当前最先进的MLLMs，在十个任务中有九个任务中，我们的HyViLM表现出色。具体而言，HyViLM在TextVQA任务上的性能提高了9.6%，在DocVQA任务上的性能提高了6.9%。

发布时间: 5/1/2025

查看原文

CAD-Unet：一种增强的胶囊网络-Unet架构，用于准确分割COVID-19肺感染的CT图像

作者: Yijie Dang, Weijun Ma, Xiaohu Luo, Huaizhu Wang

arXiv:2412.06314v2 通知类型: replace-cross 摘要：自2019年新冠肺炎疫情爆发以来，医学影像在诊断新冠肺炎肺炎方面已成为一种主要的成像模式。在临床环境中，从计算机断层扫描图像中分割肺部感染有助于实现新冠肺炎的快速和准确的量化和诊断。肺部新冠肺炎感染的分割面临着巨大挑战，主要原因是在地玻璃状混浊表现中边界模糊和对比度有限。此外，浸润、肺组织和肺壁之间的混淆相似性进一步增加了这一分割任务的复杂性。为了解决这些挑战，本文提出了一种名为CAD-Unet的新颖深度网络架构，用于分割新冠肺炎肺部感染。在该架构中，胶囊网络被集成到现有的Unet框架中。胶囊网络是一种不同于传统卷积神经网络的新型网络架构。它们利用向量进行胶囊间的信息传递，有助于提取复杂的病灶空间信息。此外，我们设计了一条胶囊编码路径，并建立了Unet编码器和胶囊编码器之间的耦合路径。这种设计最大限度地发挥了两种网络结构的互补优势，实现了高效的信息融合。最后，我们在四个公开可用的数据集上进行了广泛的实验，涵盖了二分类分割任务和多分类分割任务。实验结果表明，所提出的模型具有优越的分割性能。代码已发布在：https://github.com/AmanoTooko-jie/CAD-Unet。

发布时间: 5/1/2025

查看原文

HOT3D：来自第一人称多视点视频的三维手和物体跟踪

作者: Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Shangchen Han, Fan Zhang, Linguang Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan

arXiv:2411.19167v2 项目类型: replace-cross 摘要: 我们介绍了HOT3D，这是一个公开的数据集，用于在3D环境中进行第一人称手部和物体跟踪。该数据集提供了超过833分钟（3.7M+图像）的记录，其中包含19个主体与33个多样化的刚性物体互动。除了简单的拿起、观察和放下动作外，主体还执行厨房、办公室和客厅环境中常见的动作。记录中包含多个同步数据流，包括第一人称多视角RGB/灰度图像、眼球凝视信号、场景点云以及相机、手和物体的3D姿态。该数据集使用Meta的两个头显进行录制：Project Aria，这是AI眼镜的研究原型，以及已经发货数百万台的Quest 3虚拟现实头显。通过动作捕捉系统，使用附着在手和物体上的小型光学标记获取了真实姿态。手部注释以UmeTrack和MANO格式提供，物体则通过公司自制的扫描仪获取PBR材质的3D网格表示。在我们的实验中，我们展示了多视角第一人称数据在三个流行任务中的效果：3D手部跟踪、基于模型的6DoF物体姿态估计以及未知握持物体的3D拾取。HOT3D的独特性使得评估多视角方法成为可能，这些方法在基准测试中显著优于单视角方法。

发布时间: 5/1/2025

查看原文

ColorEdit：基于扩散模型的无训练图像色修正 adjustments

作者: Xingxi Yin, Zhi Li, Jingfeng Zhang, Chenglin Li, Yin Zhang

arXiv:2411.10232v2 公告类型: 替换-交叉摘要：文本到图像（T2I）扩散模型凭借其卓越的生成能力，已经被应用于图像编辑任务中，展示了显著的效果。然而，由于注意力泄露和对象的交叉注意力图与来自文本提示的新颜色属性之间的碰撞，文本引导的图像编辑方法可能会无法改变对象的颜色，导致生成的图像与文本提示之间的对齐出现问题。在本文中，我们深入分析了文本引导图像合成的过程以及不同交叉注意力块学习到的语义信息。我们观察到，在去噪过程的早期阶段，扩散模型的上部块决定了对象的视觉表示，并且可以通过交叉注意力层中的值矩阵对齐来实现颜色调整。基于我们发现的内容，我们提出了一种简单但稳定且有效的图像引导方法，可以在不需任何额外的微调或训练的情况下修改对象的颜色。最后，我们提出了一个基准数据集名为COLORBENCH，这是首个用于评估颜色变化方法性能的基准。广泛的实验验证了我们方法在对象级别颜色编辑的有效性，并且在合成和真实图像中均超过了流行的文本引导图像编辑方法的性能。

发布时间: 5/1/2025

查看原文

高频增强混合神经表示方法用于视频压缩

作者: Li Yu, Zhihui Li, Jimin Xiao, Moncef Gabbouj

arXiv:2411.06685v2 分类类型: 替换交叉摘要：基于神经网络的视频表示（NeRV）简化了视频编解码过程并实现了快速解码速度，通过将视频内容编码到神经网络中，提出了有潜力的视频压缩解决方案。然而，现有的工作忽略了这些方法重建的视频缺乏高频细节的关键问题。为了解决这一问题，本文引入了一种增强的混合神经网络表示网络，我们的方法侧重于利用高频信息以提高网络合成细部细节的能力。具体来说，我们设计了一个小波高频编码器，其中包含了小波频率分解（WFD）模块以生成高频特征嵌入。接下来，我们设计了高频特征调制（HFM）模块，该模块利用提取的高频嵌入来增强解码器的拟合过程。最后，结合精细的谐波解码器模块和动态加权频率损失，我们进一步减少了高频信息丢失的可能性。在Bunny和UVG数据集上的实验表明，我们的方法优于其他方法，在细节保留和压缩性能方面表现出显著的提升。

发布时间: 5/1/2025

查看原文

MicroScopiQ：通过异常值感知微缩量化加速基础模型

作者: Akshat Ramachandran, Souvik Kundu, Tushar Krishna

arXiv:2411.05282v4 通告类型: replace-cross 摘要：对基础模型（FMs）进行量化比传统的DNNs更具挑战性，因为出现了被称为离群值的大数值。现有的离群值感知的算法-架构协同设计技术要么使用混合精度，保留高精度的离群值但牺牲硬件效率，要么对Inliers和离群值进行相同精度的量化，从而提高硬件效率但以牺牲精度为代价。为了解决这种互斥性，我们提出了MicroScopiQ，这是一种新颖的协同设计技术，利用修剪来补充离群值感知的量化。MicroScopiQ 在更高的精度下保留离群值，同时修剪一定比例最不重要的权重，以分配额外的离群值位；这确保了高精度、对齐的内存和硬件效率。我们设计了一个高吞吐量、低开销的加速器架构，该架构由具有多精度INT处理单元和名为ReCoN的网络-on-芯片组成，该网络能够高效地抽象支持高精度离群值的复杂性。此外，与先前的技术不同，MicroScopiQ 不假设离群值权重的局部性，使其适用于广泛的FMs。在各种量化设置下的广泛实验表明，MicroScopiQ 达到了最先进的量化精度，同时在现有替代方案的基础上分别实现了高达3倍的更快推理和2倍的更低能耗。代码可在以下地址获取：https://github.com/georgia-tech-synergy-lab/MicroScopiQ-LLM-Quantization

发布时间: 5/1/2025

查看原文

何时进行本地化？一种基于风险的强化学习方法

作者: Chak Lam Shek, Kasra Torshizi, Troi Williams, Pratap Tokekar

arXiv:2411.02788v2 宣布类型: replace-cross 摘要：在标准的导航流水线中，机器人在每一个时间步都会进行局部化以降低导航误差。然而，在某些场景中，机器人需要在获取观测信息昂贵时选择性地进行局部化。例如，水下机器人频繁浮出水面进行局部化会妨碍其在水下寻找关键物品，如坠毁飞机的黑匣子。另一方面，如果机器人从未进行过局部化，那么由于状态估计不佳而导致的失败会导致它无意中离开搜索区域或进入危险、受限的区域。受这些场景的启发，我们研究了帮助机器人决定何时进行局部化的策略。我们将这个问题表述为一个多目标优化问题：在确保失败概率（由于碰撞或未达到预期目标）保持在一定界限内的前提下，最小化局部化动作的数量。在最近的工作中，我们展示了如何将这个主动局部化问题形式化为约束部分可观测量马尔可夫决策过程（POMDP），并使用在线POMDP解算器来解决。然而，这种方法太慢，需要完全了解机器人的状态转移和观测模型。在本文中，我们提出了RiskRL，一个克服这些限制的约束强化学习（RL）框架。RiskRL 使用粒子滤波和递归Soft Actor-Critic网络来学习一个策略，该策略在满足失败概率约束的情况下最小化局部化动作的数量。我们的数值实验表明，RiskRL 学习到一个稳健的策略，当穿越未见过的测试环境时，成功率至少提高了26%。

发布时间: 5/1/2025

查看原文