arXiv 论文列表

作者: Yiming Huang, Tolga Birdal

arXiv:2502.04308v1 交叉公告类型摘要：图生成是一项关键但具有挑战性的任务，因为经验分析需要对复杂的、非欧几里得结构有深刻的理解。尽管扩散模型在图生成方面最近取得了显著成就，但这些模型通常是从为图像生成设计的框架中转化而来，使它们不适合捕捉图的拓扑性质。在本工作中，我们提出了一种新颖的高阶引导扩散（HOG-Diff）模型，该模型遵循从粗到细的生成课程，并受到高阶信息的指导，从而能够逐步生成具有内在拓扑结构的合理图。我们进一步证明，我们的模型比经典的扩散框架具有更强的理论保证。广泛的实验表明，我们的方法在分子和通用图生成任务中都能持续超越或与最先进的基线保持竞争力。我们的代码可从 https://github.com/Yiminghh/HOG-Diff 获取。

发布时间: 2/7/2025

查看原文

DexterityGen：基础控制器 for 无与伦比的灵巧性

作者: Zhao-Heng Yin, Changhao Wang, Luis Pineda, Francois Hogan, Krishna Bodduluri, Akash Sharma, Patrick Lancaster, Ishita Prasad, Mrinal Kalakrishnan, Jitendra Malik, Mike Lambeta, Tingfan Wu, Pieter Abbeel, Mustafa Mukadam

arXiv:2502.04307v1 Announce Type: cross 摘要：教机器人灵活的操作技能，例如工具使用，是一项显著的挑战。当前的方法可以大致分为两类策略：人类远程操作（模仿学习）和模拟到现实世界的强化学习。第一种方法难以实现，因为人类很难在不提供触觉反馈的情况下对不同的身体表现产生安全且灵活的动作。第二种基于RL的方法则难以跨越领域差距，并且在复杂任务中涉及高度任务特异性的奖励工程。我们的关键见解是，RL在学习低级运动基本技能方面是有效的，而人类在提供复杂的、长时程任务的粗粒度运动命令方面表现出色。因此，最佳方案可能是这两种方法的结合。在本文中，我们引入了DexterityGen (DexGen)，它使用RL来预训练大规模的灵活运动基本技能，如手持旋转或平移。然后，我们利用这个学习的数据集来训练一个灵活的基础控制器。在现实世界中，我们使用人类远程操作作为控制器的提示，以产生高度灵活的行为。我们在模拟和现实世界中评估了DexGen的有效性，证明它是一个通用控制器，可以实现输入的灵活操作命令，并在不同任务中显著提高了稳定度，测量指标为物体保持时间提高了10到100倍。值得注意的是，我们首次通过DexGen展示了前所未有的灵活技能，包括多样化对象的重新定向以及灵活的工具使用，如笔、注射器和螺丝刀。

发布时间: 2/7/2025

查看原文

每个调用都珍贵：具有未知利普希茨常数的黑盒函数的全局优化

作者: Fares Fourati, Salma Kharrat, Vaneet Aggarwal, Mohamed-Slim Alouini

arXiv:2502.04290v1 公告类型: cross 摘要: 优化昂贵的、非凸的、黑盒Lipschitz连续函数是一个重大的挑战，特别是在不知道底层函数的Lipschitz常数时。这类问题往往需要进行大量的函数评估来近似全局最优点，这在时间、能量或资源方面可能是不可行的。在本文中，我们引入了“每次调用都珍贵”(ECP)这一新颖的全局优化算法，通过战略性地聚焦于潜在最优区域来最小化无希望的评估。与以前的方法不同，ECP 消除了估计Lipschitz常数的需要，从而避免了额外的函数评估。ECP 在无限评估预算下保证无遗憾性能，并在有限预算下实现了最优遗憾界。广泛的消融研究验证了算法的鲁棒性，而实证评估表明，ECP 在 30 个多维非凸合成和实际优化问题上超越了包括Lipschitz、贝叶斯、bandits 和进化方法在内的 10 种基准算法，这使 ECP 成为一种有竞争力的全局优化方法。

发布时间: 2/7/2025

查看原文

多语言LM如何处理多种语言？

作者: Santhosh Kakarla, Gautama Shastry Bulusu Venkata, Aishwarya Gaddam

arXiv:2502.04269v1 交叉公告类型摘要：由于自然语言处理的快速进步，多语言语言模型已经有了显著的进展。像BLOOM 1.7B这样的模型，在多元化的多语言数据集上进行训练，旨在弥合语言差距。然而，这些模型在捕捉语言知识方面的有效性，尤其是对于低资源语言，仍然是一个开放的问题。本文对多语言理解、语义表示和跨语言知识转移的MLMs能力进行了批判性分析。尽管这些模型在高资源语言方面表现良好，但在较少代表的语言方面却遇到了困难。此外，传统的评估方法往往忽视了它们的内部句法和语义编码。本研究通过三个目标来应对这些关键限制。首先，通过使用余弦相似度分析多语言词嵌入的一致性来评估语义相似性。其次，通过命名实体识别和句子相似性任务来研究BLOOM-1.7B和Qwen2的语言结构。第三，通过对情感分析和文本分类任务中从高资源语言到低资源语言的一般化能力进行评估来探索跨语言知识转移。通过利用语言探究、性能度量和可视化手段，本研究揭示了MLMs的优点和局限性。研究结果旨在提升多语言NLP模型，确保更好地支持高资源和低资源语言，从而促进语言技术的包容性。

发布时间: 2/7/2025

查看原文

点到R盒-v2：重新思考实例间空间布局在点监督定向物体检测中的作用

作者: Yi Yu, Botao Ren, Peiyuan Zhang, Mingxin Liu, Junwei Luo, Shaofeng Zhang, Feipeng Da, Junchi Yan, Xue Yang

arXiv:2502.04268v1 宣告类型: cross 摘要：随着定向对象检测（OOD）需求的迅速增加，最近对从点标注学习OOD的弱监督检测器的研究引起了极大的关注。在本文中，我们重新思考了这个具有挑战性的任务设置，并提出了Point2RBox-v2。核心包含三个原则：1）高斯重叠损失。通过将物体视为二维高斯分布并最小化它们的重叠来学习每个实例的上限。2）沃罗尼瓦什勒损失。通过沃罗尼瓦什勒瓦什勒方块中的watershed学习每个实例的下限。3）一致性损失。学习相对于输入图像及其增强视图的两个输出集之间的大小/旋转变化。通过一些精心设计的技术，例如边缘损失和复制粘贴，检测器进一步得到增强。据我们所知，Point2RBox-v2 是第一个探索实例之间空间布局以学习点监督 OOD 的方法。我们的解决方案既优雅又轻量级，但预计在稠密场景中会表现得尤为出色：在 DOTA/HRSC/FAIR1M 上的得分分别为 62.61%/86.15%/34.71%。代码可在 https://github.com/VisionXLab/point2rbox-v2 获取。

发布时间: 2/7/2025

查看原文

跨越差距：通过模式反转暴露 CLIP 中的模内对齐偏差

作者: Marco Mistretta, Alberto Baldrati, Lorenzo Agnolucci, Marco Bertini, Andrew D. Bagdanov

arXiv:2502.04263v1 公告类型：交叉摘要：像CLIP这样的预训练多模态视觉-语言模型广泛用于各种应用程序中。在本文中，我们表明，单独利用这些强大多模态模型的文本或图像编码器对于 intra-modal 任务（如图像到图像检索）来说是非常不完美的做法。我们认为这是由于CLIP风格的跨模态对比损失所导致的，这种损失并没有强制执行任何 intra-modal 约束，这导致了我们所谓的 intra-modal 未对齐。为了证明这一点，我们采用了两种基于优化的模态逆解析技术，这些技术可以将输入模态的表示映射到互补模态，而不需要辅助数据或额外训练的适配器。我们通过实验证明，在图像到图像检索和文本到文本检索的内模态任务中，以跨模态的方式处理这些任务，可以显著提高性能，相对于15个以上数据集的内模态基线。此外，我们还展示了以内模态方式处理本源的跨模态任务（例如零样本图像分类）会降低性能，这进一步验证了我们的发现。最后，我们证明了在预训练目标中引入内模态项或缩小文本和图像特征嵌入空间之间的模态差距有助于减少内模态未对齐。代码可在以下链接公开获取：https://github.com/miccunifi/Cross-the-Gap。

发布时间: 2/7/2025

查看原文

TriNER: 一系列用于印地语、孟加拉语及马哈拉施特拉语的命名实体识别模型

作者: Mohammed Amaan Dhamaskar, Rasika Ransing

arXiv:2502.04245v1 交叉发布类型: cross 摘要: 印度丰富的文化多样性和语言多样性在自然语言处理（NLP）领域，特别是在命名实体识别（NER）方面提出了各种挑战。NER是一个NLP任务，旨在识别并将标记分类到不同实体组中，如人名、地名、组织、数字等。这使得NER对于下游任务，如上下文意识匿名化非常有用。本文详细介绍了我们为印度三大语言构建多语言NER模型的工作——印地语、孟加拉语和马尔泰语。我们训练了一个自定义变压器模型，并对几个预训练模型进行了微调，共计六个实体组，实现了F1分数为92.11。通过本文，我们旨在介绍一个单一模型进行NER，并显著减少这三个语言之间的实体组和标签名称的一致性问题。

发布时间: 2/7/2025

查看原文

基于克拉默-拉奥下界的数据高效多源迁移学习的理论框架

作者: Qingyue Zhang, Haohao Fu, Guanbo Huang, Yaoyuan Liang, Chang Chu, Tianren Peng, Yanru Wu, Qi Li, Yang Li, Shao-Lun Huang

arXiv:2502.04242v1 宣告类型: cross 摘要: 多源迁移学习为在实际监督学习场景中数据稀缺提供了一个有效的解决方案，通过利用多个源任务。在这一领域，现有的工作通常会在训练中使用所有可用的源样本，这限制了它们的训练效率，并可能导致次优结果。为了解决这个问题，我们提出了一种理论框架，回答了以下问题：在联合训练目标模型时，每个源任务需要多少最优数量的源样本？具体而言，我们引入了一种与交叉熵损失相一致的泛化误差度量，并基于Cramér-Rao界对其进行最小化，以确定每个源任务的最佳迁移数量。此外，我们开发了一种架构无关且数据高效的算法OTQMS，以实现我们的理论结果，用于训练深度多源迁移学习模型。在多种架构和两个实际应用场景基准数据集上的实验研究表明，我们提出的算法在准确性和数据效率上均显著优于现有最先进的方法。代码和补充材料可在https://anonymous.4open.science/r/Materials获取。

发布时间: 2/7/2025

查看原文

XAttnMark：基于交叉注意机制的稳健音频水印学习

作者: Yixin Liu, Lie Lu, Jihui Jin, Lichao Sun, Andrea Fanelli

arXiv:2502.04230v1 宣称类型: cross 摘要：生成音频合成和编辑技术的迅速普及引发了关于版权侵犯、数据来源以及通过深度假音传播虚假信息的重大关注。水印提供了一种主动解决方案，通过在音频内容中嵌入不可察觉但可识别和追踪的标记。尽管最近的神经网络基水印方法如WavMark和AudioSeal在提高稳健性和质量方面取得了进展，但它们难以同时实现稳健检测和精确归因。本文介绍了跨注意机制稳健音频水印(XAttnMark)，通过在生成器和检测器之间共享部分参数、使用跨注意力机制高效检索消息以及使用时间条件模块改善消息分布来弥补这一差距。此外，我们提出了一种与听觉掩蔽效应对齐的时间-频率掩蔽损失，提高了水印的不可察觉性。我们的方法在检测和归因方面都达到了最先进的性能，展示了对各种音频变换的强大鲁棒性，包括具强编辑强度的具有挑战性的生成编辑。项目网页可在 https://liuyixin-louis.github.io/xattnmark/访问。

发布时间: 2/7/2025

查看原文

暗蒸馏：无需访问原始数据即可污染浓缩数据集

作者: Ziyuan Yang, Ming Yan, Yi Zhang, Joey Tianyi Zhou

arXiv:2502.04229v1 公告类型：交叉摘要：数据集蒸馏（DD）通过将大数据集凝缩成较小的合成数据集来增强训练效率并减少带宽使用。它使模型能够在几乎与原始全数据集训练的模型相同的效果下实现性能，并已成为数据共享的广泛采用方法。然而，数据集蒸馏中的安全问题仍然很少被研究。现有研究通常假设恶意行为源自初始蒸馏过程中数据集所有者，通过在原始数据集中注入后门。与此相反，本工作首次针对一个更为现实和令人担忧的威胁进行了研究：攻击者可能拦截数据集分发过程，在凝缩数据集中注入后门，并重新分发给用户。虽然凝缩数据集之前被认为对后门攻击具有抵抗力，但我们证明它们仍然容易受到此类攻击的影响。此外，我们表明，攻击者甚至不需要访问任何原始数据就能成功注入后门。具体而言，我们的方法从使用凝缩数据集训练的模型中重建每个类别的概念架构型。然后在这些架构型中注入后门以更新凝缩数据集。此外，我们确保更新的数据集不仅保留了后门，还保留了原始优化轨迹，从而维持了原始数据集的知识。为此，设计了一种混合损失来结合沿良性优化轨迹的后门信息，确保先前学习的信息不会被遗忘。大量的实验表明，凝缩数据集高度容易受到后门攻击，且这种风险覆盖了各种原始数据集、蒸馏方法和下游训练策略。此外，我们的攻击方法高效，在某些情况下，能够在不到一分钟的时间内合成一个恶意凝缩数据集。

发布时间: 2/7/2025

查看原文