arXiv 论文列表

作者: Aditi Ramaswamy

arXiv:2505.04497v1 宣布类型: 交叉摘要: 生成式AI模型的创造力在过去几年中一直是科学探讨的课题，但没有得出结论。在本文中，我们从实际应用的角度研究了创造力，并引入了定量指标，这些指标有助于用户根据给定的任务选择合适的AI模型。我们对我们提出的指标进行了多项流行图像到图像生成模型的评估，结果表明，这些指标符合人的直觉。

发布时间: 5/8/2025

查看原文

基于模型的AI规划与执行系统（应用于机器人技术）

作者: Or Wertheim, Ronen I. Brafman

arXiv:2505.04493v1 类型:交叉摘要:基于模型的规划和执行系统提供了一种构建灵活自主机器人进行多样任务的方法，这些机器人能够通过自动组合大量基本技能来完成任务。这一想法几乎与现代机器人技术一样古老。尽管如此，自从提出多种通用推理架构以来，将这些通用系统与现代机器人平台集成的系统仅在近年来才出现，这始于具有影响力的ROSPlan系统。自此之后，出现了越来越多的基于模型的机器人任务级控制系统。在本文中，我们考虑了现有系统试图解决的各种设计选择和问题，以及迄今为止提出的不同解决方案，并建议未来发展的途径。

发布时间: 5/8/2025

查看原文

“我可以看到永远！”：评估实时视频LLMs以辅助视力受损个体

作者: Ziyi Zhang, Zhen Sun, Zongmin Zhang, Zifan Peng, Yuemeng Zhao, Zichun Wang, Zeren Luo, Ruiting Zuo, Xinlei He

arXiv:2505.04488v1 类型：交叉摘要：目前，视力受损的人口，尤其是严重视力受损的人口数量庞大，日常活动对他们构成了重大挑战。尽管许多研究利用大型语言和语言-视觉模型来帮助盲人，但大多数研究集中在静态内容上，未能在动态和复杂环境中，如日常活动中，满足实时感知需求。为了给他们提供更有效的智能辅助，急需引入先进的视觉理解技术。尽管实时视觉和语音交互 VideoLLMs 在实时视觉理解方面表现出强大的能力，但此前没有研究系统地评估它们在辅助视力受损个体方面的有效性。在这项工作中，我们首次进行了这样的评估。首先，我们构建了一个基准数据集 (VisAssistDaily)，涵盖了视力受损个体的三种辅助任务类别：基本技能、家庭生活任务和社会生活任务。结果显示，GPT-4o 实现了最高的任务成功率。接下来，我们进行了一项用户研究，以评估模型在封闭世界和开放世界场景中的表现，进一步探讨了在辅助环境中应用 VideoLLMs 的实际挑战。我们识别的一个关键问题是，当前模型在动态环境中感知潜在威胁的困难。为了解决这个问题，我们构建了一个名为 SafeVid 的环境感知数据集，并引入了一种投票机制，使模型能够主动检测环境风险。我们希望这项工作为该领域的未来研究提供有价值的见解和灵感。

发布时间: 5/8/2025

查看原文

使用潜在变量的高效流匹配

作者: Anirban Samaddar, Yixuan Sun, Viktor Nilsson, Sandeep Madireddy

arXiv:2505.04486v1 宣告类型：交叉摘要：在概率生成模型中，流动匹配模型在图像生成任务中展现了巨大的潜力。基于连续正则化流的理念，流动匹配模型将扩散模型的传输路径从简单的先验分布推广到了数据本身。现有文献中的大多数流动匹配模型在从简单源分布（如标准高斯分布）学习流动时，并未明确建模目标数据的潜在结构/流形。这导致了在学习效率方面的问题，尤其是在许多高维的实际数据集中，这些数据经常存在于低维流形上。现有的引入流形的策略，包括具有潜在多模态分布的数据，通常需要昂贵的训练过程，因此经常导致次优性能。为了解决这些问题，我们提出了一种名为 \texttt{Latent-CFM} 的方法，它提供了一种简化训练/推理策略来利用预训练的深层潜变量模型中的多模态数据结构。通过在多模态合成数据和广泛使用的图像基准数据集上进行实验，我们展示了 \texttt{Latent-CFM} 在显著减少训练时间和计算量的情况下（在某些情况下减少约50%）具有改进的生成质量。使用2D达西流动数据集，我们证明了我们的方法能够生成比竞争方法更符合物理特性的样本。此外，通过潜空间分析，我们展示了该方法可以用于基于潜特征的条件图像生成。

发布时间: 5/8/2025

查看原文

谱域和时域去噪的差分隐私优化方法

作者: Hyeju Shin, Kyudan Jung, Seongwon Yun, Juyoung Yun

arXiv:2505.04468v1 类型：交叉摘要：本文介绍了改进快速傅里叶变换卡尔曼滤波器（FFTKF），这是一种不同性隐私优化方法，解决了在DP-SGD中保持性能的挑战，因为在DP-SGD中添加的噪声通常会降低模型的实用性。FFTKF将频率域噪声整形与卡尔曼滤波相结合，以提高梯度质量的同时保持$(\varepsilon, \delta)$-DP保证。它在傅里叶域中使用高频整形掩码，将差异隐私噪声集中在较低的信息谱成分上，从而保留低频梯度信号。带有有限差分海森堡近似的标量增益卡尔曼滤波器进一步细化去噪梯度。FFTKF在每次迭代复杂度为$\mathcal{O}(d \log d)$的情况下，证明了在使用CNN、Wide ResNets和Vision Transformers的MNIST、CIFAR-10、CIFAR-100和Tiny-ImageNet数据集时，在测试准确性方面优于DP-SGD和DiSK。理论分析表明，FFTKF维持了等价的隐私保证，同时通过减少噪声和控制偏差实现了更紧的隐私-实用性权衡。

发布时间: 5/8/2025

查看原文

通过ensemble一致实现的辨别性排序

作者: Louis Ohl, Fredrik Lindsten

arXiv:2505.04464v1 类型: cross 摘要：评估聚类模型的性能是一项具有挑战性的任务，其结果取决于聚类定义的标准。由于这一设计，当前现有的度量标准很少能够处理具有多种聚类定义的多个聚类模型，也不顾及可用约束条件的整合。在本文中，我们从共识聚类中汲取灵感，并假设一组聚类模型能够揭示数据中的隐藏结构。我们提出了一种基于聚类模型连通性和共识矩阵间距离的集成聚类来构建区分性排序的方法。我们首先通过合成场景验证了此方法，强调提出的方法的得分将最佳匹配共识的模型排在首位。然后我们展示了在比较不同聚类算法的集合时，此简单的排名得分明显优于其他评分方法，即使这些聚类算法不受固定聚类数目的限制，也与其他约束条件兼容。

发布时间: 5/8/2025

查看原文

时间交互图表示学习综述：进展、挑战与机遇

作者: Pengfei Jiao, Hongjiang Chen, Xuan Guo, Zhidong Zhao, Dongxiao He, Di Jin

arXiv:2505.04461v1 类别: cross 摘要: 以时间戳标记的交互事件序列定义的时间交互图（TIGs）由于能够建模复杂动态系统的行为，已在实际应用中变得无处不在。因此，时间交互图表示学习（TIGRL）近年来引起了广泛关注。TIGRL旨在将TIG中的节点嵌入到既能够有效保留结构信息也能够保留时间信息的低维度表示中，从而增强在不断变化的数据环境中进行分类、预测和聚类等下游任务的性能。在本文中，我们首先介绍了时间交互图的基础概念，并强调了时间依赖性的关键作用。然后，我们提出了一种针对最新TIGRL方法的全面分类体系，根据学习过程中利用的信息类型系统地对其进行分类，以解决TIG特有的独特挑战。为了促进进一步的研究和实际应用，我们整理了数据集和基准的来源，提供了重要的资源供实证研究使用。最后，我们探讨了TIGRL中的关键开放挑战，并探索了有前景的研究方向，为未来的发展奠定了基础，有可能塑造该领域的演变。

发布时间: 5/8/2025

查看原文

使用卷积神经网络和常数Q变换的自动音乐转谱

作者: Yohannis Telila, Tommaso Cucinotta, Davide Bacciu

arXiv:2505.04451v1 类别: cross 摘要：自动音乐转录（AMT）是指分析音乐作品的音频记录并检测正在演奏的音符的问题。AMT 是一个极具挑战性的问题，尤其是在处理多声部音乐时。AMT 的目标是通过分析包含多音同时演奏的声音信号，生成音乐作品的谱表表示。在本文中，我们设计了一个处理管道，可以将古典钢琴的 .wav 格式音频文件转换为音乐谱表表示。音频信号的特征是通过常数-Q 变换提取的，并将得到的系数作为卷积神经网络（CNN）模型的输入。

发布时间: 5/8/2025

查看原文

FedBWO: 提高联邦学习中的通信效率

作者: Vahideh Hayyolalam, \"Oznur \"Ozkasap

arXiv:2505.04435v1 类型：交叉摘要：联邦学习（FL）是一种分布式机器学习（ML）设置，其中通过各种客户端使用各自的本地数据集协同训练共享模型，同时保持数据的隐私。考虑到资源受限的设备，FL客户端经常面临传输能力受限的问题。为了提高系统性能，客户端与服务器之间的通信需要减少。当前的FL策略在FL过程中传输大量的数据（模型权重），这需要较高的通信带宽。考虑到资源限制，增加客户端的数量，从而增加本地模型权重的数据量，可能会导致瓶颈。在这篇论文中，我们引入了联邦黑寡妇优化（FedBWO）技术，通过仅传输性能得分而非客户端的本地模型权重来减少传输的数据量。FedBWO 使用BWO算法来改进本地模型更新。进行的实验证明，FedBWO 显著提高了全局模型的性能和整个系统的通信效率。根据实验结果，FedBWO 的全局模型准确性平均比 FedAvg 提高了21%，比 FedGWO 提高了12%。此外，与其它方法相比，FedBWO 显著降低了通信成本。

发布时间: 5/8/2025

查看原文

用主动注释识别 vocal 印度艺术音乐中的装饰音

作者: Sumit Kumar, Parampreet Singh, Vipul Arora

arXiv:2505.04419v1 宣布类型：交叉摘要：装饰、装饰或微调音是许多音乐传统中旋律表达的要素，为表演增添了深度、细腻和情感冲击力。识别歌唱声音中的装饰在MIR中至关重要，潜在的应用包括音乐教学、歌手识别、音乐体裁分类以及受控歌唱声音生成。然而，缺乏标注数据集和专门的建模方法仍然是该研究领域进展的主要障碍。在这项工作中，我们介绍了Rāga装饰检测（ROD），一个由专家音乐家策划的印度古典音乐录音组成的新型数据集。该数据集使用定制的人工智能辅助工具对六大嗓音装饰进行事件标记的标注。使用此数据集，我们开发了一种基于深度时间序列分析的装饰检测模型，在长时间录音分块时保留装饰边界。我们在ROD数据集的不同训练-测试配置下进行实验，并在另一个由手工标注的印度古典音乐会录音组成的独立数据集上评估我们的方法。我们的实验结果支持我们提出的这种方法优于基准CRNN的方法。

发布时间: 5/8/2025

查看原文