arXiv 论文列表

作者: Amir Hosein Fadaei, Mohammad-Reza A. Dehaqani

arXiv:2502.07277v1 Announce Type: cross 摘要：视频已成为我们在网络上分享信息的主要方式，这也是为什么对能够分析和理解视频内容的算法需求激增的原因。随着视频继续主导数字景观，这一趋势将不断延续。这些算法将从视频中提取和分类相关的特征，并使用这些特征来描述视频中的事件和对象。深度神经网络在特征提取和视频描述领域展现了令人鼓舞的结果。本文将探讨视频中的时空特征以及视频理解领域深度神经网络的最新进展。我们将回顾视频理解模型的主要趋势及其结构设计、主要问题以及一些提供的解决方案。我们还将回顾并比较重要的视频理解和动作识别数据集。

发布时间: 2/12/2025

查看原文

对比预训练模型中的数据集所有权验证

作者: Yuechen Xie, Jie Song, Mengqi Xue, Haofei Zhang, Xingen Wang, Bingde Hu, Genlang Chen, Mingli Song

arXiv:2502.07276v1 类别: cross 摘要：高质量的开源数据集需要大量的努力进行整理，已成为深度学习迅速进步的主要催化剂。同时，保护这些数据集对于数据所有者的利益至关重要。数据集所有权验证在此领域中成为了一种关键方法，但现有的方法通常局限于监督模型，无法直接扩展到越来越流行的无监督预训练模型。在本文中，我们提出了一种针对自监督预训练模型的第一种数据集所有权验证方法，该方法通过对比学习进行设计。其主要目标是确定可疑的黑盒主干模型是否在特定的未标记数据集上进行了预训练，帮助数据所有者维护其权益。我们提出的方法源于我们的经验洞察，即当模型使用目标数据集进行训练时，嵌入空间内的单例和双例实例关系显示出与没有目标数据集进行训练的模型相比显著的差异。我们通过多个对比预训练模型（包括SimCLR、BYOL、SimSiam、MOCO v3和DINO）对该方法进行了验证。结果显示，我们的方法能够以p值远低于0.05的显著性水平拒绝原假设，超过了所有以前的方法。我们的代码可以在https://github.com/xieyc99/DOV4CL获取。

发布时间: 2/12/2025

查看原文

用充足示例内存实现高效连续学习

作者: Dongkyu Cho, Taesup Moon, Rumi Chunara, Kyunghyun Cho, Sungmin Cha

arXiv:2502.07274v1 类别: cross 摘要：持续学习（CL）研究通常假设样板记忆资源极其受限。然而，在许多实际场景中，尤其是在大型基础模型的时代，记忆资源丰富，而GPU计算成本是主要瓶颈。在本工作中，我们研究了一种新型的持续学习设置，其中样板记忆资源充足（即，足够的样板记忆）。与为严格样板记忆约束设计的先前方法不同，我们提出了一种简单而有效的方法，该方法通过结合权重重置和平均技术直接在模型的权重空间中操作。我们的方法在保持现有方法四分之一或三分之一的计算成本的同时实现了最先进的性能。这些发现挑战了传统持续学习的假设，并为计算高效的持续学习应用提供了实用的基础。

发布时间: 2/12/2025

查看原文

变分学习诱发自适应标签平滑

作者: Sin-Han Yang, Zhedong Liu, Gian Maria Marconi, Mohammad Emtiyaz Khan

arXiv:2502.07273v1 宣告类型: cross 摘要: 我们表明，变分学习自然地引起了自适应标签平滑，其中标签噪声专门为每个示例而定制。这样的标签平滑对于处理带有标签错误和分布转移的示例是有用的，但设计一个好的自适应策略并不总是容易的。我们提出省去这一步骤，并简单地使用变分目标优化期间自然引起的自适应性。我们展示了实验结果，在这些结果中，一种称为IVON的变分算法优于传统标签平滑，并且产生的自适应策略类似于现有方法。通过将贝叶斯方法与标签平滑连接起来，我们的工作提供了一种处理过于自信预测的新方法。

发布时间: 2/12/2025

查看原文

多智能体AI中的公平性：一个统一的框架以实现伦理和公平的自主系统

作者: Rajesh Ranjan, Shailja Gupta, Surya Narayan Singh

arXiv:2502.07254v1 类别: 综述摘要：确保去中心化多智能体系统中的公平性面临着诸多挑战，包括新兴的偏见、系统性低效率以及智能体间相冲突的激励机制。本文对多智能体AI中的公平性进行了全面的综述，引入了一个新的框架，将公平性视为智能体交互的一种动态、 emergent 属性。该框架结合了公平性约束、偏见缓解策略和激励机制，使自主智能体的行为与社会价值相一致，同时平衡效率和鲁棒性。通过实证验证，我们证明了引入公平性约束会导致更公平的决策。这项工作填补了AI伦理与系统设计之间的空白，为可问责、透明且具有社会责任感的多智能体AI系统提供了基础。

发布时间: 2/12/2025

查看原文

NARCE：基于Mamba的神经算法推理框架，用于在线复杂事件检测

作者: Liying Han, Gaofeng Dong, Xiaomin Ouyang, Lance Kaplan, Federico Cerutti, Mani Srivastava

arXiv:2502.07250v1 类型: cross 摘要: 当前的机器学习模型在短跨度感知任务中表现出色，但在从长期观察中提取高层次见解方面能力不足，这种能力是理解复杂事件（CEs）的核心。CEs 被定义为由时空规则支配的短期原子事件（AEs）序列，由于需要从长且嘈杂的传感器数据中提取有意义的模式并忽略无关事件，因此很难在线检测 CEs。我们假设基于状态的方法非常适合 CE 检测，因为这些方法通过状态转换捕捉事件进展，而不需要长期记忆。基准实验验证了这一点，表明状态空间模型 Mamba 超过了现有架构。然而，Mamba 对大量标记数据的依赖性，而这些数据难以获取，促使我们提出了第二个假设：将 CE 规则学习与嘈杂的传感器数据脱钩可以减少数据需求。为了解决这个问题，我们提出了 NARCE，这是一种框架，将神经算法推理（NAR）结合进来，将任务分为两个组成部分：（i）使用生成概念轨迹的大型语言模型（LLMs）独立于传感器数据学习 CE 规则；（ii）通过适配器将传感器输入映射到这些规则。我们的结果表明，NARCE 在准确性、对未见和更长传感器数据的泛化能力以及数据效率方面超过了基线方法，显著降低了注释成本并推进了稳健的 CE 检测。

发布时间: 2/12/2025

查看原文

线性变压器作为VAR模型：对齐自回归注意力机制与自回归预测

作者: Jiecheng Lu, Shihao Yang

arXiv:2502.07244v1 类别: cross学科摘要: 自回归基于注意力的时间序列预测（TSF）近年来引起了越来越多的兴趣，有时线性注意力机制的表现甚至超过了基本注意力机制。然而，更深层次的Transformer架构经常与自回归目标不匹配，这会掩盖嵌入在线性注意力中的潜在VAR结构，阻碍它们捕捉TSF中的数据生成过程的能力。在这项工作中，我们首先证明一个单一的线性注意力层可以被解释为动态向量自回归（VAR）结构。然后我们解释说，现有的多层Transformer在结构上与自回归预测目标不匹配，这影响了模型的可解释性和泛化能力。为了解决这一问题，我们展示了通过重新安排MLP、注意力和输入输出流，多层线性注意力也可以作为一个VAR模型进行对齐。然后，我们提出了结构对齐VAR混合（SAMoVAR），这是一种线性Transformer变体，它结合了可解释的动态VAR权重进行多元TSF。通过将Transformer架构与自回归目标对齐，SAMoVAR在性能、可解释性和计算效率上都优于SOTA的TSF模型。

发布时间: 2/12/2025

查看原文

Vevo：可控的自监督解缠零样本语音模仿

作者: Xueyao Zhang, Xiaohui Zhang, Kainan Peng, Zhenyu Tang, Vimal Manohar, Yingru Liu, Jeff Hwang, Dangna Li, Yuhao Wang, Julian Chan, Yuan Huang, Zhizheng Wu, Mingbo Ma

arXiv:2502.07243v1 Announce Type: cross 摘要：针对特定语音属性（如音色和发音风格）的声音模仿，在语音生成中至关重要。然而，现有的方法高度依赖标注数据，并且在有效分离音色和风格方面存在困难，导致在实现可控生成尤其在零样本场景中遇到挑战。为了解决这些问题，我们提出了一种名为Vevo的多功能零样本语音模仿框架，具有可控的音色和风格。Vevo在两个核心阶段运作：(1) 内容-风格建模：给定文本或语音的内容令牌作为输入，我们利用自回归变换器生成内容-风格令牌，该令牌受到风格参考的提示；(2) 声学建模：给定内容-风格令牌作为输入，我们采用流动匹配变换器产生声学表示，该表示受到音色参考的提示。为了获得语音的内容令牌和内容-风格令牌，我们设计了一种完全自监督的方法，逐步分离语音的音色、风格和语言内容。具体而言，我们采用VQ-VAE作为Hubert的连续隐特征的分词器。我们处理VQ-VAE代码本的词汇量大小作为信息瓶颈，并仔细调整它以获得分离的语音表示。仅在60000小时的有声书语音数据上自监督训练，且在风格特定语料库上未进行任何微调，Vevo在口音和情绪转换任务中匹配或超越了现有方法。此外，Vevo在零样本语音转换和文本转语音任务中的有效性进一步证明了其强大的泛化能力和多功能性。音频样本可在https://versavoice.github.io获取。

发布时间: 2/12/2025

查看原文

情境手势：通过情境意识手势表示的伴随手势视频生成

作者: Pinxin Liu, Pengfei Zhang, Hyeongwoo Kim, Pablo Garrido, Ari Sharpio, Kyle Olszewski

arXiv:2502.07239v1 Announce Type: 横向交流摘要：伴随言语的手势生成对于创建逼真的虚拟角色并增强人机互动至关重要，尤其是在手势与言语同步方面。尽管近年来取得了进展，但现有方法在准确从音频中识别节奏或语义触发器并生成上下文相关的手势模式以及实现像素级的现实感方面仍存在问题。为了解决这些问题，我们提出了一种名为“上下文手势”的框架，通过三种创新组件来改进伴随言语的手势视频生成：（1）时间顺序的言语-手势对齐，该对齐连接了两种模态，（2）上下文相关的手势标记，它通过蒸馏将言语上下文融入到运动模式表示中，（3）结构感知的精炼模块，它利用边缘连接将手势关键点链接起来以改进视频生成。我们的大量实验表明，上下文手势不仅能够生成逼真且与言语对齐的手势视频，还支持长序列生成和视频手势编辑应用，如图1所示。项目页面：https://andypinxinliu.github.io/Contextual-Gesture/

发布时间: 2/12/2025

查看原文

大规模parcel数据集的扩散吸附抓取

作者: Ding-Tao Huang, Xinyi He, Debei Hua, Dongfang Yu, En-Te Lin, Long Zeng

arXiv:2502.07238v1 交叉公告类型摘要：尽管在物体吸盘抓取方面取得了显著进展，但在杂乱和复杂的包裹处理场景中，仍存在重大挑战。当前方法受两大关键限制的影响：（1）缺乏针对包裹操作任务的全面吸盘抓取数据集；（2）缺乏对多样物体特征的充分适应性，包括尺寸变化、几何复杂性和纹理多样性。为解决这些挑战，我们提出了一种大规模合成数据集——Parcel-Suction-Dataset，其中包含2.5万个杂乱场景和4.1亿个精确标注的吸盘抓取姿态。该数据集通过我们新颖的几何采样算法生成，该算法能够高效生成同时考虑物理约束和材料特性的最优吸盘抓取姿态。我们还提出了一种创新框架——Diffusion-Suction，通过降噪扩散概率模型将吸盘抓取预测重新定义为条件生成任务。我们的方法通过点云观察的视觉条件指导，逐步将随机噪声细化为吸盘抓取分数图，有效地从合成数据集中学习空间点的使用条件。广泛的实验表明，简单而高效的Diffusion-Suction在Parcel-Suction-Dataset和公开的SuctionNet-1Billion基准上都取得了新的最佳性能。

发布时间: 2/12/2025

查看原文