arXiv 论文列表

作者: Guanxing Lu, Tengbo Yu, Haoyuan Deng, Season Si Chen, Yansong Tang, Ziwei Wang

arXiv:2412.06779v2 更新类型: 替换-交叉摘要：执行一般语言指导的双臂操作任务对于从家庭服务到工业装配等多种应用至关重要。然而，由于动作空间的高度维度，收集双臂操作数据需要高昂的成本，这给常规方法处理一般双臂操作任务带来了挑战。相比之下，单臂策略最近已经展示出在广泛的多种任务中具有令人印象深刻的泛化能力，这是由于模型参数和训练数据的缩放，这可以为双臂系统提供可共享的操作知识。为了解决这一问题，我们提出了一种插即用方法，称为AnyBimanual，该方法可以在很少的双臂演示的情况下，将预训练的单臂策略转换为一般的双臂操作策略。具体来说，我们首先引入了一种技能管理器，用于动态调度来自预训练单臂策略发现的技能表示，以适用于双臂操作任务，该方法将技能原语与任务导向补偿线性结合，以表示双臂操作指令。为了解决单臂系统和双臂系统之间的观察差异，我们提出了一种视觉对齐器，以生成软掩码用于工作空间的视觉嵌入，该视觉对齐器旨在使单臂策略模型在每个臂上的视觉输入与预训练阶段的视觉输入对齐。AnyBimanual在RLBench2的12个模拟任务中表现出优越性，成功率相比之前的方法提高了12.67%。在9个实际任务上的实验进一步验证了其实用性，平均成功率达到了84.62%。

发布时间: 3/28/2025

查看原文

向量大语言模型时代可控语音合成综述

作者: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu

arXiv:2412.06602v2 公告类型: replace-cross 摘要: 文字到语音（TTS），也称为语音合成，是一个引人注目的研究领域，旨在从文本生成自然声音的人类语音。近年来，随着工业需求的不断增加，TTS 技术已经超越了生成类似人类的语音，进一步使可控语音生成成为可能。这包括对生成语音的各种属性进行精细控制，如情感、韵律、音色和时长。此外，深度学习的进步，包括扩散模型和大规模语言模型，已在过去几年中显著提高了可控 TTS 的性能。在本文中，我们对可控 TTS 进行了全面的回顾，涵盖了从基本控制技术到利用自然语言提示的方法，旨在提供目前研究状况的清晰理解。我们探讨了通用的可控 TTS 流程、挑战、模型架构和控制策略，提供了一种全面且清晰的现有方法分类体系。此外，我们详细总结了数据集和评估指标，并对可控 TTS 的应用和未来方向给出了一定的见解。据我们所知，本文提供了有关新兴可控 TTS 方法的第一个全面回顾，可以作为学术研究人员和工业实践者的一个有益资源。

发布时间: 3/28/2025

查看原文

OODFace：在常见腐蚀和外观变化下的面部识别鲁棒性基准测试

作者: Caixin Kang, Yubo Chen, Shouwei Ruan, Shiji Zhao, Ruochen Zhang, Jiayi Wang, Shan Fu, Xingxing Wei

arXiv:2412.02479v2 通告类型: 替换-交叉摘要：随着深度学习的发展，面部识别技术的研究和快速发展也引起了广泛关注。尽管面部识别技术被认为是成熟的技术，但我们发现现有的开源模型和商用算法在某些复杂的离域（OOD）场景中缺乏稳健性，这引起了对这些系统可靠性的担忧。在本文中，我们介绍了OODFace，从两个视角探讨了面部识别模型面临的OOD挑战：常见的破坏和外观变化。我们系统地设计了30个面向面部识别的离域场景，涵盖了9个主要类别。通过在公共数据集上模拟这些挑战，我们建立了三个稳健性基准：LFW-C/V、CFP-FP-C/V 和 YTF-C/V。然后，我们在19个面部识别模型和3个商用API，以及扩展的物理实验，包括面罩评估方面，进行了广泛的实验，以评估其稳健性。接下来，我们从两个角度探讨潜在的解决方案：防御策略和视觉-语言模型（VLMs）。根据实验结果，我们得出了一些关键见解，强调了面部识别系统的脆弱性，以及可能的解决方案。此外，我们提供了一个统一的工具包，其中包括所有类型的破坏和变化，且易于扩展到其他数据集。我们希望我们的基准和发现能够为未来面部识别模型稳健性的改进提供指导。

发布时间: 3/28/2025

查看原文

面向动力学的高斯点迹流传输，朝向快速即时4D重建

作者: Zhening Liu, Yingdong Hu, Xinjie Zhang, Rui Song, Jiawei Shao, Zehong Lin, Jun Zhang

arXiv:2411.14847v2 宣告类型: replace-cross 摘要：最近3D高斯散点图（3DGS）的发展激发了人们对4D动态空间重建的兴趣。现有方法主要依赖于全长多视角视频，而有关能够实现实时训练和按时间步分发的在线重建方法的研究相对有限。当前基于3DGS的分发方法将高斯原始值均匀对待，并不断更新密集的高斯函数，从而忽视了动态和静态特征之间的差异，并忽略了场景中的时间连续性。为了解决这些局限性，我们提出了一种新型的迭代分发的4D动态空间重建的三阶段流水线。我们的流水线包括一个选择性继承阶段，以保留时间连续性；一个动态感知移动阶段，以区分动态和静态原始值并优化它们的运动；以及一个基于误差的密度增强阶段，以适应新兴对象。我们的方法在在线4D重建方面达到了最先进的性能，显示出最快的演示训练速度、更好的表示质量和实时渲染能力。项目主页：https://www.liuzhening.top/DASS

发布时间: 3/28/2025

查看原文

以评估驱动的大语言模型代理开发：一个过程模型和参考架构

作者: Boming Xia, Qinghua Lu, Liming Zhu, Zhenchang Xing, Dehai Zhao, Hao Zhang

arXiv:2411.13768v2 宣传类型: 替换交叉摘要：大型语言模型（LLMs）使语言模型代理的出现成为可能：自主系统，能够在不具体编程或模型更改的情况下实现未明确指定的目标并适应部署后的更改。评估这些代理对于确保其性能和安全性至关重要，尤其是考虑到它们具有动态性、概率性和不断演化的特点。然而，传统的评估方法，如预定义的测试用例和标准的重新开发管道，难以应对语言模型代理评估的独特挑战。这些挑战包括捕捉开放的行为、处理新兴的结果以及在整个生命周期中使代理具有持续的适应能力。为了解决这些问题，我们提出了一种以评估为导向的开发方法，以借鉴测试驱动开发和行为驱动开发的理念，但重新设想用于语言模型代理的独特特征。通过对多声文献综述（MLR），我们综合了现有语言模型评估方法的局限性，并引入了一种针对语言模型代理评估驱动开发的新型过程模型和参考架构。我们的方法结合了运行时在线和重新开发离线的评估，实现了运行时的适应调整，并系统地迭代改进了管道、制品、系统架构和语言模型本身。通过连续将评估结果，包括来自人类和AI评估者的具体反馈，纳入开发和运营的每个阶段，该框架确保语言模型代理与不断变化的目标、用户需求和治理标准保持一致。

发布时间: 3/28/2025

查看原文

ATM：交替调优与合并以提升模型融合效果

作者: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Fabrizio Silvestri, Emanuele Rodol\`a

arXiv:2411.03055v3 宣布类型: replace-cross 摘要：模型合并 recently 突显为多任务学习的一种成本效益高的范式。在当前的方法中，任务算术因其简单性和有效性而脱颖而出。在本文中，我们通过对任务向量与多任务梯度的关联来解释任务向量的有效性。我们展示了在单个 epochs 场景中，如果使用梯度下降进行优化，那么经过一步之后，任务向量在数学上等价于通过梯度下降在多任务设置中获得的梯度，而在后续的 epochs 中它们仍然近似这些梯度。此外，我们表明任务向量的有效性很大程度上是由第一个 epochs 的梯度驱动的。鉴于任务向量与梯度之间的这种并行关系，我们提议将模型合并视为迭代过程中交替调优和合并（ATM）步骤中的一步。然后，我们提出了利用 ATM 的两种方式。首先，在禁止数据共享的场景中，如联邦学习，可以替代多任务学习使用 ATM。第二种方法是在使用通常用于超参数调优的较小验证数据集上应用几轮 ATM 的后处理迭代，以提高任何模型合并算法的结果。最后，我们为 ATM 的有效性提供了 empirical 和理论支持，证明它最小化了所有任务联合微调后所获得的损失的一个上界。

发布时间: 3/28/2025

查看原文

LSEAttention对于时间序列预测足够了

作者: Dizhen Liang

arXiv:2410.23749v4 公告类型: replace-cross 摘要：基于变压器的架构在自然语言处理和计算机视觉中取得了显著的成功。然而，它们在多变量长期预测中的表现往往不如简单的线性基线。以往的研究已经确定了传统的注意力机制是限制其在这种领域中有效性的关键因素。为了弥合这一差距，我们引入了LATST，这是一种新颖的方法，旨在缓解Transformer在时间序列预测中常见的熵坍缩和训练不稳定性。我们系统地评估了LATST在多个实际多变量时间序列数据集上的性能，证明了其能够超越现有的最先进的Transformer模型。值得注意的是，LATST在某些数据集上即使使用较少的参数也能达到与一些线性模型相当的表现，这突显了其效率和有效性。

发布时间: 3/28/2025

查看原文

半监督自我学习增强音乐情绪识别

作者: Yifu Sun, Xulong Zhang, Monan Zhou, Wei Li

arXiv:2410.21897v2 公告类型: replace-cross 摘要: 音乐情绪识别（MER）旨在识别给定音乐作品中传达的情绪。然而，目前在MER领域，可用的公开数据集样本量有限。近期，提出了一种基于段的方法，这种方法在较短的音频段上训练骨干网络，而不是整个音频片段，从而自然地增加了训练样本，而不需要额外的资源。然后，预测的段级结果被聚合以获得整个歌曲的预测。最常用的方法是段继承包含它的片段的标签，但音乐情绪在整个片段中并不是恒定的。这样会导致标签噪声，并使得训练容易过拟合。为了处理标签噪声问题，我们提出了一种半监督自学习（SSSL）方法，该方法可以在自学习的方式下区分带有正确和错误标签的样本，从而有效地利用增加的段级数据。在三个公开的情绪数据集上的实验表明，所提出的方法可以实现更好的或可比较的性能。

发布时间: 3/28/2025

查看原文

ProReason：解耦视觉与智慧的多模态主动推理

作者: Jingqi Zhou, Sheng Wang, Jingwei Dong, Lei Li, Jiahui Gao, Jiyue Jiang, Lingpeng Kong, Chuan Wu

arXiv:2410.14138v2 通知类型: replace-cross 摘要：大规模视觉语言模型（LVLMs）在视觉理解任务上取得了显著进展。然而，在视觉推理任务上，它们往往优先考虑语言知识而忽视了图像信息，导致性能下降。为了解决这一问题，我们首先指出了现有解决方案的不足（即缺乏相关视觉描述和有限的多模态能力）。然后，我们将视觉推理过程分解为两个阶段：视觉感知（即视力）和文本推理（即智慧），并引入了一种新的视觉推理框架—ProReason。该框架具备多轮主动感知和分离的视觉-推理能力。具体而言，给定一个多模态问题时，ProReason 会不断进行主动信息收集和推理，直到通过必要的和充分的视觉描述得出答案。值得注意的是，这种能力的分离使得现有的大规模语言模型（LLMs）可以无缝集成来弥补LVLMs在推理方面的不足。我们的大量实验表明，在开源和闭源模型的一系列基准测试中，ProReason 在多步推理框架和被动对照方法上均表现优异。此外，在MMMU基准测试中，得益于LLM的帮助，ProReason 的性能提升了高达15%。我们对现有解决方案的见解以及LLM分离视角下的整合可能性为未来视觉推理技术的研究，特别是LLM帮助下的技术，提供了新的启示。

发布时间: 3/28/2025

查看原文

乳腺影像多视图和多尺度对齐对比语言-图像预训练

作者: Yuexi Du, John Onofrey, Nicha C. Dvornek

arXiv:2409.18119v2 Announce Type: replace-cross 摘要：对比语言-图像预训练模型（CLIP）在医学图像分析中展示了强大的潜力，但需要大量数据和计算资源。由于这些限制，现有的CLIP在医学成像中的应用主要集中在如胸片这些有大量的图像报告数据可用的模态上，而其他许多重要的模态则被忽视。在此，我们提出了一种将完整CLIP模型首次应用于乳腺摄影的适应性方法，乳腺摄影由于标注数据稀缺、高分辨率图像中小区域兴趣以及类别间的不平衡，带来了重大挑战。我们首先开发了一种专门针对乳腺摄影的监督框架，利用其多视角特性。此外，我们设计了一个对称局部对齐模块，以更好地关注高分辨率图像中的详细特征。最后，我们引入了一种参数高效的微调方法，用于在医学知识下预训练的大语言模型以解决数据限制问题。我们的多视角和多尺度对齐（MaMA）方法在两个大规模实际乳腺摄影数据集EMBED和RSNA-Mammo上，对于三个不同的任务，以仅比最大的基线模型52%的模型大小，实现了优于当前最先进的基线方法的效果。代码可在https://github.com/XYPB/MaMA 获取。

发布时间: 3/28/2025

查看原文