arXiv 论文列表

作者: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig

大型多模态模型 (LMM) 在小样本学习中的近期成功表明，使用大量示例的上下文学习 (ICL) 有望用于学习新任务。然而，这种多样本多模态 ICL 设置存在一个关键问题：它从根本上受到预训练时模型上下文长度的限制。这个问题在处理文本和图像都需要额外标记的多模态领域尤为突出。这促使我们需要一种多模态方法，无需微调即可将许多样本压缩成更少的标记。在这项工作中，我们利用多模态任务向量 (MTV)——在模型注意力头中压缩的上下文示例的紧凑隐式表示——使 LMM 能够执行多模态、多样本上下文学习。具体来说，我们首先证明了 LMM 中存在这种 MTV，然后利用这些提取的 MTV 来实现各种视觉和语言任务的多样本上下文学习。我们的实验表明，MTV 的性能可以随着压缩样本数量的增加而提高，并且无需额外的上下文长度即可泛化到类似的域外任务。代码：https://github.com/Brandon3964/MultiModal-Task-Vector

发布时间: 11/28/2024

查看原文

基于大型语言模型字幕增强改进DCASE 2024挑战赛任务9中语言查询音频源分离的性能

作者: Do Hyun Lee, Yoonah Song, Hong Kook Kim

我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离 (LASS) 任务。为了提高 LASS 的性能，该方法利用大型语言模型 (LLM) 为训练数据集的每个句子生成多个标题。为此，我们首先进行实验，以较少的标题数量确定最有效的提示增强方法。使用这些增强标题训练的 LASS 模型在 DCASE 2024 任务 9 验证集上的性能优于未经增强训练的模型。这项研究突出了基于 LLM 的标题增强在推进语言查询音频源分离方面的有效性。

发布时间: 11/28/2024

查看原文

EgoSurgery-Tool：来自第一人称视角开放手术视频的手术工具和手部检测数据集

作者: Ryo Fujii, Hideo Saito, Hiroki Kajita

手术工具检测是理解以自我为中心的开放式手术视频的一项基本任务。然而，由于手术工具类别分布高度不平衡、形状和纹理相似以及严重遮挡等原因，检测手术工具面临着巨大的挑战。缺乏全面的大型数据集加剧了这些挑战。本文介绍了EgoSurgery-Tool数据集，它是现有EgoSurgery-Phase数据集的扩展，包含使用安装在外科医生头部上的自我中心摄像机拍摄的真实开放式手术视频以及阶段标注。EgoSurgery-Tool对手术工具进行了密集标注，包含超过49,000个跨15个类别的外科手术工具边界框，构成一个大型的手术工具检测数据集。EgoSurgery-Tool还提供了超过46,000个手部边界框的手部检测标注，捕捉了对手术中理解活动至关重要的手部-物体交互。由于规模更大、手术工具种类更多、标注更多以及场景更密集，EgoSurgery-Tool优于现有数据集。我们使用九种流行的目标检测器对EgoSurgery-Tool进行了全面的分析，以评估其在手术工具和手部检测中的有效性。该数据集将发布在https://github.com/Fujiry0/EgoSurgery。

发布时间: 11/28/2024

查看原文

自我手术视角下的手术阶段识别数据集

作者: Ryo Fujii, Masashi Hatano, Hideo Saito, Hiroki Kajita

手术阶段识别因其为现代手术室的诸多需求提供解决方案的潜力而受到广泛关注。然而，大多数现有方法都集中在微创手术 (MIS) 上，而开放手术的手术阶段识别研究不足。这种差异主要归因于公开可用的用于手术阶段识别的开放手术视频数据集的匮乏。为了解决这个问题，我们引入了一个新的用于阶段识别的人称视角开放手术视频数据集，命名为 EgoSurgery-Phase。该数据集包含 15 小时的真实开放手术视频，涵盖 9 个不同的手术阶段，所有视频均使用安装在外科医生头部的人称视角摄像头拍摄。除了视频之外，EgoSurgery-Phase 还提供眼动追踪数据。据我们所知，这是第一个公开可用的用于手术阶段识别的真实开放手术视频数据集。此外，受掩码自动编码器 (MAE) 在视频理解任务（例如动作识别）中显著成功的启发，我们提出了一种凝视引导掩码自动编码器 (GGMAE)。考虑到外科医生凝视关注的区域通常对手术阶段识别至关重要（例如，手术视野），在我们的 GGMAE 中，凝视信息充当经验语义丰富性先验，引导掩码过程，从而更好地关注语义丰富的空间区域。GGMAE 在 EgoSurgery-Phase 数据集上显著提高了之前的最先进识别方法（Jaccard 指标提高 6.4%）和基于掩码自动编码器的方法（Jaccard 指标提高 3.1%）。该数据集已发布在 https://github.com/Fujiry0/EgoSurgery。

发布时间: 11/28/2024

查看原文

DiG：具有门控线性注意力机制的可扩展高效扩散模型

作者: Lianghui Zhu, Zilong Huang, Bencheng Liao, Jun Hao Liew, Hanshu Yan, Jiashi Feng, Xinggang Wang

基于大规模预训练的扩散模型在视觉内容生成领域取得了显著成功，特别是扩散Transformer（DiT）模型。然而，DiT模型面临着二次复杂度效率的挑战，尤其是在处理长序列时。本文旨在将门控线性注意力（GLA）的亚二次建模能力融入二维扩散骨干网络。具体来说，我们引入了扩散门控线性注意力Transformer（DiG），这是一种简单易用的解决方案，参数开销极小。我们提供了两种变体，即普通架构和U型架构，它们显示出优越的效率和具有竞争力的有效性。除了在256×256分辨率下比DiT和其他亚二次时间扩散模型具有更好的性能外，DiG从512分辨率开始就表现出更高的效率。具体来说，在1792分辨率下，DiG-S/2的速度是DiT-S/2的2.5倍，GPU内存节省了75.7%。此外，在1024分辨率下，DiG-XL/2的速度是基于Mamba的模型的4.2倍，在2048分辨率下，其速度是使用FlashAttention-2的DiT的1.8倍。我们将很快发布代码。代码已发布在https://github.com/hustvl/DiG。

发布时间: 11/28/2024

查看原文

冻结守护：通过选择性张量冻结来减轻扩散模型的非法改编

作者: Kai Huang, Haoming Wang, Wei Gao

文本到图像扩散模型可以在自定义领域进行微调以适应特定用户的偏好，但这种适应性也被用于非法目的，例如伪造公众人物的肖像、复制受版权保护的艺术作品和生成露骨内容。现有工作侧重于检测非法生成的内容，但无法阻止或减轻扩散模型的非法改编。同样，其他模型遗忘和重新初始化方案也无法阻止用户使用自定义数据重新学习非法模型改编的知识。在本文中，我们提出了 FreezeAsGuard，这是一种新技术，它解决了这些局限性，并能够不可逆地减轻扩散模型的非法改编。我们的方法是模型发布者选择性地冻结预训练扩散模型中对非法模型改编至关重要的张量，以减轻非法改编中微调模型的表示能力，同时最大限度地减少对其他合法改编的影响。在多个文本到图像应用领域的实验结果表明，与竞争性基线相比，FreezeAsGuard 在减轻非法模型改编方面具有 37% 的更强能力，同时对合法模型改编的影响小于 5%。源代码可在以下网址获取：https://github.com/pittisl/FreezeAsGuard。

发布时间: 11/28/2024

查看原文

分布偏移下的选择性分类

作者: Hengyue Liang, Le Peng, Ju Sun

在选择性分类 (SC) 中，分类器会避免做出可能出错的预测，以避免出现过多错误。为了在高风险场景中部署不完美的分类器——无论是由于数据的内在统计噪声、分类器的鲁棒性问题，还是其他原因——选择性分类似乎是一条有吸引力且必要的途径。尽管在选择性分类领域已经进行了数十年的研究，但大多数以前的选择性分类方法仍然只关注理想的统计设置，即部署时的数据分布与训练时的数据分布相同，尽管实际数据可能来自各种来源。为了弥合这一差距，本文提出了一种考虑分布偏移的选择性分类框架，称为广义选择性分类，它除了典型的分布内样本外，还涵盖了标签偏移（或分布外）和协变量偏移样本，这是选择性分类文献中的首次尝试。我们关注基于深度学习 (DL) 分类器的广义选择性分类的非训练型置信度评分函数，并提出了两种新的基于边际的评分函数。通过大量的分析和实验，我们证明了我们提出的评分函数比现有的评分函数更有效、更可靠，适用于各种分类任务和深度学习分类器。代码可在 https://github.com/sun-umn/sc_with_distshift 获取。

发布时间: 11/28/2024

查看原文

揭示物理信息神经网络的优化过程：PINN能达到多高的精度和竞争力？

作者: Jorge F. Urb\'an, Petros Stefanou, Jos\'e A. Pons

本研究探讨了物理信息神经网络 (PINN) 潜在的精度极限，将其方法与以往类似的工作和传统的数值方法进行了对比。我们发现，选择改进的优化算法可以显著提高结果的精度。对损失函数进行简单的修改也可能提高精度，为进一步改进提供了途径。尽管优化算法对收敛的影响大于对损失函数的调整，但出于易于实现的考虑，在实践中通常更倾向于调整后者。在全局范围内，集成改进的优化器和略微调整的损失函数能够使各种物理问题的损失函数减少几个数量级。因此，我们使用紧凑型网络（通常包含 2 或 3 层，每层 20-30 个神经元）获得的结果达到了与使用数千个网格点的有限差分方案相当的精度。本研究鼓励继续推进 PINN 及其相关的优化技术，以便在各个领域得到更广泛的应用。

发布时间: 11/28/2024

查看原文

基于深度学习的头部和颈部癌症PET/CT图像多角度最大强度投影（MA-MIPs）特征提取的无分割预后预测

作者: Amirhosein Toosi, Isaac Shiri, Habib Zaidi, Arman Rahmim

我们提出了一种创新的、简单有效的无分割方法，用于预测头颈癌 (HNC) 患者的预后。该方法利用基于深度学习的特征提取技术和应用于氟脱氧葡萄糖正电子发射断层扫描 (FDG-PET) 体积的多角度最大强度投影 (MA-MIPs)，无需手动分割感兴趣区域 (ROI)，例如原发肿瘤和受累淋巴结。取而代之的是，训练一个最先进的目标检测模型来自动裁剪 PET 体积上的头颈区域。然后利用预训练的深度卷积神经网络骨干从裁剪后的 PET 体积的 72 个多角度轴向旋转获得的 MA-MIPs 中提取深度特征。然后聚合和融合从 PET 体积的多个投影视图中提取的这些深度特征，并用于对 489 例 HNC 患者队列进行无复发生存分析。该方法在目标数据集上，针对无复发生存分析任务，优于最佳性能方法。通过避免手动勾画 FDG PET-CT 图像上的恶性肿瘤，我们的方法消除了对主观解释的依赖性，并极大地提高了所提出的生存分析方法的可重复性。

发布时间: 11/28/2024

查看原文

CoTAR：基于多层次粒度的链式思维归因推理

作者: Moshe Berchansky, Daniel Fleischer, Moshe Wasserblat, Peter Izsak

大型语言模型 (LLM) 在问答 (QA) 任务中取得了最先进的性能，但是这些模型往往会在其回答中出现幻觉信息。一种方法侧重于通过将给定输入的属性整合到输出中来增强生成过程。然而，识别合适的属性并根据来源验证其准确性是一项复杂的任务，需要在评估此类系统方面进行重大改进。我们引入了一种面向属性的链式思维推理方法来提高属性的准确性。这种方法将推理过程集中在生成以属性为中心的输出上。使用 GPT-4 对两个上下文增强型问答数据集进行的评估表明，属性的准确性和正确性得到了提高。此外，将我们的方法与微调相结合，可以提高两个较小的 LLM 的响应和属性准确性，表明它们在某些情况下有可能超越 GPT-4。

发布时间: 11/28/2024

查看原文