arXiv 论文列表

BRIGHT：一个用于全天候灾害响应的全球分布式多模态高分辨率建筑损害评估数据集

作者: Hongruixuan Chen, Jian Song, Olivier Dietrich, Clifford Broni-Bediako, Weihao Xuan, Junjue Wang, Xinlei Shao, Yimin Wei, Junshi Xia, Cuiling Lan, Konrad Schindler, Naoto Yokoya

arXiv:2501.06019v3 宣告类型：替换-交叉摘要：全球各地都会发生自然灾害，造成重大的人员和财产损失。地球观测（EO）数据能够实现快速而全面的建筑损坏评估（BDA），这是灾后减少人员伤亡和指导灾难救援工作的关键能力。近年来，研究主要集中在利用光学EO数据开发AI模型以实现对未见灾害事件的精确映射。然而，基于光学数据的解决方案受到晴朗天气和白天时段的限制，无法及时应对灾难。通过整合多模态（MM）EO数据，特别是光学图像和SAR图像的结合，可以提供全天候、不分昼夜的灾害响应。尽管存在这种潜在优势，但开发稳健的多模态AI模型受到缺乏合适的基准数据集的限制。本文介绍了使用非常高分辨率光学和SAR图像（BRIGHT）的BDA数据集，以支持基于AI的全天候灾害响应。据我们所知，BRIGHT是第一个开放获取、全球分布、事件多样化的专门用于支持基于AI的灾害响应的多模态数据集。它涵盖了五大类自然灾害和两类人为灾害，覆盖了14个全球地区，特别侧重于最需要外部援助的发达国家。在BRIGHT中，光学和SAR图像的空间分辨率在0.3-1米之间，提供了详细的建筑物表示，使其非常适合精确的BDA。在我们的实验中，我们测试了使用BRIGHT训练的七种高级AI模型，以验证其可迁移性和稳健性。数据集和代码可在https://github.com/ChenHongruixuan/BRIGHT获取。BRIGHT还作为2025 IEEE GRSS数据融合竞赛的官方数据集。

发布时间: 4/21/2025

查看原文

3D 医学视觉自监督学习的开放思维

作者: Tassilo Wald, Constantin Ulrich, Jonathan Suprijadi, Sebastian Ziegler, Michal Nohel, Robin Peretzke, Gregor K\"ohler, Klaus H. Maier-Hein

arXiv:2412.17041v2 自监督学习类别: replace-cross 摘要：3D 医学图像的自监督学习（SSL）领域缺乏一致性与标准化。尽管已经开发了许多方法，但由于 i) 变化且规模较小的预训练数据集，ii) 变化的架构，以及 iii) 不同的下游数据集进行评估等原因，无法确定当前最先进水平。在本文中，我们通过三个关键贡献为这一领域带来了清晰度，并为未来的方法进步奠定了基础：我们 a) 发布了迄今为止最大的公开可用的预训练数据集，包含 114,000 个 3D 脑部 MRI 体积，使所有从业者能够基于大规模数据集进行预训练。我们 b) 在这个数据集上对现有的 3D 自监督学习方法进行了基准测试，针对最先进的 CNN 和 Transformer 架构，澄清了 3D SSL 预训练的状态。在许多发现中，我们展示了预训练方法可以超过从零开始的 nnU-Net ResEnc-L 基准。最后，我们 c) 发布了我们的预训练和微调框架的代码，并提供了基准测试过程中创建的预训练模型，以促进快速采用和重现。

发布时间: 4/21/2025

查看原文

编辑喷射：基于多视图融合和注意力引导优化的视图一致3D场景编辑——使用3D高斯喷射

作者: Dong In Lee, Hyeongcheol Park, Jiyoung Seo, Eunbyung Park, Hyunje Park, Ha Dam Baek, Sangheon Shin, Sangmin Kim, Sangpil Kim

arXiv:2412.11520v2 宣布类型: replace-cross 摘要：近年来，3D编辑领域的进展突显了基于文本方法在实时、易用的AR/VR应用中的潜力。然而，当前的方法依赖于2D扩散模型，未能充分考虑多视角信息，导致多视角不一致。虽然3D Gaussian Splatting (3DGS) 大大提高了渲染质量和速度，但在3D编辑过程中，由于预训练的高斯分布保留了过多的源信息，导致优化效率低下，遇到了困难。为了克服这些限制，我们提出了一种新的基于文本的3D场景编辑框架EditSplat，该框架整合了Multi-view Fusion Guidance (MFG) 和Attention-Guided Trimming (AGT)。我们的MFG通过将多视角信息融入扩散过程中，确保多视角一致性，利用来自文本到图像扩散模型和3DGS固有的几何结构的分类器自由指导。此外，我们的AGT利用3DGS的显式表示来选择性地修剪和优化3D高斯分布，提高优化效率，使局部编辑更加精确且语义丰富。通过广泛的定性和定量评估，EditSplat达到了最先进的性能，建立了新的基于文本的3D场景编辑基准。

发布时间: 4/21/2025

查看原文

异步控制：学习跨模态语义特征以实现可控异常合成

作者: Shidan He, Lei Liu, Xiujun Shu, Bo Wang, Yuanhao Feng, Shen Zhao

arXiv:2412.06510v3 宣告类型: 替换-交叉摘要：异常合成是提高异常检测的重要增补方法。基于大规模预训练的知识，现有的文本到图像的异常合成方法主要侧重于文本信息或粗略对齐的视觉特征来引导整个生成过程。然而，这些方法通常缺乏足够的描述符来捕捉现实异常的复杂特征（例如，异常的细粒度视觉模式），限制了生成过程的真实性和通用性。为了解决这一问题，我们提出了一种新颖的异常合成框架，称为AnomalyControl，以学习跨模态语义特征作为引导信号，可以编码来自文本-图像参考提示的一般异常线索并提高合成异常样本的真实性。具体而言，AnomalyControl 采用灵活且不匹配的提示对（即文本-图像参考提示和目标文本提示），其中设计了一个跨模态语义建模（CSM）模块，从文本和视觉描述符中提取跨模态语义特征。然后，提出了异常-语义增强注意力（ASEA）机制，使CSM能够专注于异常的特定视觉模式，从而增强生成的异常特征的真实性和上下文相关性。将跨模态语义特征视为先验，设计了一个语义引导适配器（SGA），以编码有效的引导信号，实现充足且可控的合成过程。广泛的实验表明，与现有方法相比，AnomalyControl 在异常合成方面可以达到最先进的结果，在下游任务中表现出优越的性能。

发布时间: 4/21/2025

查看原文

DisCoRD: 从离散标记到连续运动的Rectified流解码

作者: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

arXiv:2411.19527v3 Announce Type: replace-cross 摘要：人类动作是固有的连续和动态的，给生成模型带来了重大挑战。虽然离散生成方法被广泛使用，但它们在表现力和帧间噪声伪影方面存在局限性。相比之下，连续方法可以生成更平滑、更自然的动作，但往往难以遵守条件信号，原因在于高维复杂性和有限的训练数据。为了弥合离散和连续表示之间的分歧，我们引入了DisCoRD：通过矫正流解码从离散动作标记到连续动作的空间，这是一种新颖的方法，利用矫正流来在连续的原始动作空间中解码离散的动作标记。我们的核心思想是将动作标记解码视为条件生成任务，确保DisCoRD捕捉到细微的动力学并生成更平滑、更自然的动作。我们的方法与任何基于离散的框架兼容，在各种设置中可以增强自然性而不影响对条件信号的忠实度。全面评估我们项目的网页可用于此：https://whwjdqls.github.io/discord.github.io/。

发布时间: 4/21/2025

查看原文

序是间距数据聚类所需的一切

作者: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung

arXiv:2411.15189v3 通告类型: replace-cross 摘要：由定性属性组成的数据在机器学习任务中非常普遍。由于缺乏明确定义的度量空间，类别数据分布难以直观理解。聚类是一种流行的数据分析技术，适用于数据分布理解。然而，聚类的成功往往依赖于合理的距离度量，而这恰恰是类别数据自然缺乏的。因此，本文提出了一项新的发现，即属性值之间的顺序关系是影响聚类准确性的关键因素，也是理解类别数据聚类的关键，因为聚类的本质是根据样本的接纳情况对聚类进行排序。为了获得这些顺序，我们提出了一种新的学习范式，允许聚类和顺序的联合学习。该方法基于顺序构建的距离度量交替地将数据划分成聚类，并根据聚类估计最有可能的顺序。该算法在收敛性保证下实现了优越的聚类准确性，并学习到的顺序有助于理解类别数据非直观的聚类分布。广泛的经验实验、消融研究、统计证据和案例研究验证了对价值顺序重要性的新见解和方法的提出。源代码暂时在 https://anonymous.4open.science/r/OCL-demo 开放。

发布时间: 4/21/2025

查看原文

表象之下： underwater image enhancement 在物体检测中的作用

arXiv:2411.14626v3 通知类型: replace-cross 摘要: 水下图像经常遭受严重退化，导致视觉质量降低和目标检测性能下降。本文旨在评估最先进的图像增强模型，探讨它们对水下目标检测的影响，并探索其在提高检测性能方面的潜在可能。为此，我们将包括物理、非物理和基于学习三类在内的九种最新水下图像增强模型应用于两个最新的水下图像数据集。随后，我们对原始图像和增强图像进行联合定性和定量分析，揭示两者之间的差异，并分析图像质量分布在增强后的变化。接着，我们基于原始数据集训练了三种最新的目标检测模型，选择性能最佳的检测器进行进一步分析。随后，我们将该检测器重新训练于增强后的数据集上，评估检测性能的变化，突显了数据集级别上增强对检测性能的负面影响。然后，我们进行相关性研究，以检查各种增强指标与平均精确度均值（mAP）之间的关系。最后，我们在图像级别对增强效果进行了分析，揭示了增强后检测性能得到提升的图像。这项研究的发现表明，图像增强有可能提高检测性能，并为研究人员提供有价值的见解，以进一步探索在图像级别而不是数据集级别上增强对检测的影响。这可以使得研究人员能够根据不同图像的具体情况选择性地应用增强，以提高检测性能。生成的数据、开发的代码和补充材料均已在以下网址公开：https://github.com/RSSL-MTU/Enhancement-Detection-Analysis。

发布时间: 4/21/2025

查看原文

缩小语言模型的应用范围

作者: David Yunis, Siyu Huo, Chulaka Gunasekara, Danish Contractor

arXiv:2410.21597v2 宣布类型: 替换-交叉摘要：我们现在在各种面向用户的应用程序中部署语言模型。通常，这些部署具有某些特定目的，比如回答关于文档的问题或充当编程助手，但它们需要通用的语言理解能力。在这种情况下，这些模型不应该能够回答与所需行为无关的请求，例如，诗歌生成或关于物理学的问题等。相反，我们希望语言模型只对对应于期望行为的查询进行回答，并拒绝所有其他请求，这我们称之为束掍。我们对从提示到微调再到偏好学习，以及最近提出的一种称为电路断路器（CB）的通用对齐方法的潜在方法进行了全面的经验评估。在三种语言模型系列和广泛的任务中，我们展示了能够束掍语言模型的可能性。我们对多个主题以及细粒度主题的束掍进行了研究。我们删除无关查询的多样性，采用不同的技术组合，进行对抗性评估等。在其他结果中，我们发现，当有多种无关查询示例时，简单的监督微调产生最佳效果，但当这种多样性较低时，电路断路器表现相当出色。通过依次叠加这两种方法可以 often 获得两者的好处。我们希望我们的研究能够作为实践者的束掍语言模型指南。

发布时间: 4/21/2025

查看原文

SurF头：用于几何精确的2D高斯Surfel头avatar的仿射刚体混合

作者: Jaeseong Lee, Taewoong Kang, Marcel C. B\"uhler, Min-Jung Kim, Sungwon Hwang, Junha Hyung, Hyojin Jang, Jaegul Choo

arXiv:2410.11682v2 头部avatar渲染类型：替换交叉摘要：使用高斯基础体进行头部avatar渲染的最新进展已经取得了高度忠实的结果。虽然精细的头部几何对于应用如网格重建和重新光照至关重要，但当前的方法由于依赖相似变换而难以捕捉复杂的几何细节，并且无法渲染未见的姿势，因为相似变换无法处理必要的详细几何变形所必需的拉伸和剪切变换。为了解决这个问题，我们提出了一种名为SurFhead的新方法，该方法使用二维高斯表面元从RGB视频中重建可调节的头部几何形状，这些表面元具有明确的几何性质，例如固定射线交点和表面朝向导出的法线所赋予的精确深度，使它们在3D同类中具有优势。SurFhead通过利用古典基于网格的形变转移和仿射变换插值，确保即使在极端姿势下也能实现高忠实度的法线和图像渲染。SurFhead通过变换的极分解引入精确的几何变形并融合表面元，包括影响法线的变形。我们的重要贡献在于将古典图形技术（如基于网格的形变）与现代高斯基础体相结合，实现了最先进的几何重建和渲染质量。与之前的avatar渲染方法不同，SurFhead能够通过高斯基础体高效地重建几何形状，同时保持高忠实度的几何质量。

发布时间: 4/21/2025

查看原文

AgentHarm：衡量语言模型代理有害性的基准

作者: Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies

arXiv:2410.09024v3 通告类型: replace-cross 摘要：对语言模型（LLMs）在牢笼突破攻击中的鲁棒性研究主要集中在充当简单聊天机器人的LLMs上，其中用户设计提示以绕过安全措施并误用模型能力。另一方面，使用外部工具并能够执行多阶段任务的LLM代理如果被误用，可能会带来更大的风险，但它们的鲁棒性仍然尚未得到充分探索。为了促进对LLM代理误用的研究，我们提出了一种新的基准测试，称为AgentHarm。该基准测试包括一个多样化的目标集，共有110个明确恶意的代理任务（440个带有扩充的任务），涵盖了包括欺诈、网络犯罪和骚扰在内的11个伤害类别。除了衡量模型是否拒绝有害代理请求之外，要在一个高水平上获得AgentHarm的评分，还需要在被攻击后，使被突破的代理维持其能力以完成多步骤任务。我们评估了一系列领先的LLM，发现：（1）领先的LLM在没有被突破的情况下出乎意料地遵循了恶意代理请求的要求；（2）简单的通用突破模板可以有效应用于将代理被突破，以及（3）这些突破使得代理能够表现出连贯且恶意的多步骤行为，并保留模型的能力。为了便于对基于LLM的代理攻击和防御进行简单可靠地评估，我们公开发布了AgentHarm，可在https://huggingface.co/datasets/ai-safety-institute/AgentHarm 获取。

发布时间: 4/21/2025

查看原文