arXiv 论文列表

作者: Jeongsoo Choi, Ji-Hoon Kim, Kim Sung-Bin, Tae-Hyun Oh, Joon Son Chung

arXiv:2504.20629v1 类型: cross 摘要：在这篇论文中，我们解决了从多种输入模态（文本、视频和参考音频）合成高质量语音的多模态到语音生成任务。由于其广泛的应用前景，如电影制作、配音和虚拟化身，这一任务正逐渐获得人们的高度关注。尽管取得了近期的进展，现有方法仍然在语音清晰度、音频视频同步、语音自然度以及与参考说话者的声音相似性方面存在局限性。为了应对这些挑战，我们提出了一种名叫AlignDiT的多模态对齐扩散变换器，它能够从对齐的多模态输入中生成准确、同步且自然的语音。基于DiT架构的上下文学习能力，AlignDiT探索了三种有效的策略来对齐多模态表示。此外，我们引入了一种新颖的多模态无分类器引导机制，该机制允许模型在语音合成过程中适应性地平衡每种模态的信息。大量的实验表明，AlignDiT在多项基准测试中，在质量、同步性和说话者相似性方面显著优于现有方法。此外，AlignDiT在各种多模态任务中，如视频到语音合成和视觉强制对齐，展示了很强的泛化能力，并且能够持续保持最先进的性能。该项目的演示页面可在https://mm.kaist.ac.kr/projects/AlignDiT/找到。

发布时间: 4/30/2025

查看原文

基于扩散模型的室脉冲响应插值

作者: Sagi Della Torre, Mirco Pezzoli, Fabio Antonacci, Sharon Gannot

arXiv:2504.20625v1 宣传类型: cross 摘要: 房间冲激响应（RIRs）描述了声学环境，并在多项音频信号处理任务中至关重要。高质量的RIR估计驱动了诸如虚拟麦克风、声源定位、增强现实和数据增强等应用。然而，获得具有高空间分辨率的RIR测量值是一项资源密集型任务，使其在大空间或需要密集采样时难以实现。本研究解决了在房间内未测量位置估计RIR的挑战，利用了去噪扩散概率模型（DDPM）。我们的方法借鉴了RIR矩阵与图像修复之间的类比，将RIR数据转换为基于扩散重建的格式。使用基于图像法的模拟RIR数据，我们在不同曲率的麦克风阵列上展示了我们方法的有效性，从线性到半圆形。我们的方法成功地重构了缺失的RIR，即使在麦克风之间的大间隙中也能做到。在这种情况下，它在归一化均方误差和RIR实际值与插值值的余弦距离方面表现出色，显著优于基线样条三次插值。本研究突显了使用生成模型进行有效RIR插值的潜力，为从有限的现实世界测量中生成额外数据铺平了道路。

发布时间: 4/30/2025

查看原文

大型语言模型生成的Web应用程序代码中的隐藏风险：基于安全性评估的代码生成能力评价

作者: Swaroop Dora, Deven Lunkad, Naziya Aslam, S. Venkatesan, Sandeep Kumar Shukla

arXiv:2504.20612v1 Announce Type: cross 摘要：大型语言模型（LLMs）的迅速发展提高了软件开发过程的效率，减少了编程所需的时间和努力，提升了开发人员的生产力。然而，尽管它们具有潜在的好处，研究表明在受控环境中由LLMs生成的代码会产生不安全的代码，这引发了对其在实际应用中可靠性和安全性的重要关切。本文使用预定义的安全参数来评估多个模型，如ChatGPT、DeepSeek、Claude、Gemini和Grok生成的代码的安全合规性。分析表明，这些代码在身份验证机制、会话管理、输入验证和HTTP安全标头方面存在严重漏洞。虽然一些模型在一定程度上实施了安全措施，但没有一个完全符合行业最佳实践，突显了自动化软件开发所伴随的风险。我们的研究结果强调，人类专业知识对于确保安全软件的部署或审查由LLMs生成的代码至关重要。此外，需要建立稳健的安全评估框架，以增强LLMs生成的代码在实际应用中的可靠性。

发布时间: 4/30/2025

查看原文

生成式AI时代的信息检索：RGB模型

作者: Michele Garetto, Alessandro Cornacchia, Franco Galante, Emilio Leonardi, Alessandro Nordio, Alberto Tarable

arXiv:2504.20610v1 Announce Type: cross 摘要：大型语言模型（LLMs）和生成型AI的出现从根本上改变了互联网上的信息检索和处理，带来了内容真实性与可靠性方面的巨大潜力和重要关切。本文提出了一种新颖的定量方法，以揭示随着生成型AI工具使用的增长而产生的复杂信息动态。尽管这些工具对数字生态系统产生了重大影响，但这些动态仍很大程度上未被探索和理解。我们提出了一种随机模型来表征对新主题的生成、索引和传播。这一场景尤其挑战当前的LLMs，这些模型往往依赖于实时检索增强生成（RAG）技术来克服其静态知识的限制。我们的研究发现表明，生成型AI的迅速采用与用户依赖性的增加，可能会超越人工验证的速度，从而加剧数字资源中不准确信息传播的风险。对Stack Exchange数据的深入分析确认，高质量的答案不可避免地需要大量的时间和人力才能出现。这强调了生成针对新问题具有说服力文本时所具有的重大风险，并突显了未来生成型AI工具负责任开发和部署的重要需求。

发布时间: 4/30/2025

查看原文

大型语言模型中基于单个训练示例进行推理的强化学习方法

作者: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen

arXiv:2504.20571v1 交叉公告类型摘要：我们展示了使用可验证奖励的一次训练示例（1-shot RLVR）的强化学习，这种方法在激励大型语言模型（LLMs）的数学推理能力方面是有效的。将RLVR应用于基础模型Qwen2.5-Math-1.5B，我们发现一个单一的示例可以将模型在MATH500上的性能从36.0%提升到73.6%，并改善了六种常见数学推理基准测试的平均性能，从17.6%提高到35.7%。这个结果与使用1.2k DeepScaleR子集（MATH500：73.6%，平均：35.9%），其中包括上述示例的结果相符。在各种模型（Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B）、RL算法（GRPO和PPO）和不同数学示例（许多示例在作为单一训练示例使用时，对MATH500的性能提升约为30%或更高）中，也观察到了类似的显著改进。此外，在1-shot RLVR过程中，我们观察到了一些有趣的现象，包括跨领域泛化、自我反思频率增加以及即使在训练准确性饱和后持续提高的测试性能，我们将其称为饱和后泛化。此外，我们验证了1-shot RLVR的有效性主要源自策略梯度损失，这使其与“理解”现象区分开来。我们还展示了在1-shot RLVR训练中促进探索（例如，通过添加适当的系数的熵损失）的临界作用。作为额外的收获，我们观察到，仅应用熵损失而不使用任何结果奖励，可以显著提升Qwen2.5-Math-1.5B在MATH500上的性能，提升幅度为27.4%。这些发现可以启发未来的RLVR数据效率研究，并鼓励对RLVR的近期进步及其内在机制进行重新审视。我们的代码、模型和数据在https://github.com/ypwang61/One-Shot-RLVR开源。

发布时间: 4/30/2025

查看原文

包含训练分离和隐式知识交互的平衡在线类增量学习

作者: Shunjie Wen, Thomas Heinis, Dong-Wan Choi

arXiv:2504.20566v1 类型: cross 摘要：在线类增量学习（OCIL）集中于从数据流中单过学习新类（称为塑性），同时并发地保留之前学习的类的知识（称为稳定性）。OCIL的主要挑战在于在不断更新的模型中维持旧类和新类知识的良好平衡。现有方法大多依赖于显式的知识交互通过经验回放，并且经常采用排他性训练分离以解决偏差问题。然而，仍然存在一个大的挑战来实现一个均衡的学习者，因为这些方法往往由于在OCIL设置中不断集成知识的困难而表现出较低的塑性或有限的稳定性。在这项研究中，我们提出了一种名为Balanced Online Incremental Learning（BOIL）的新型基于回放的方法，该方法可以在保持高塑性和稳定性的基础上确保OCIL的更均衡性能。我们的BOIL方法提出了一种使用双分类器的包含性训练分离策略，使得可以从旧类和新类中有效地集成知识，同时引入了在两个分类器之间转移知识的隐式方法。在三个广泛使用的OCIL基准数据集上的大量实验评估表明，BOIL方法优于现有的基于回放的OCIL方法，展示了更好的平衡和更优越的性能。

发布时间: 4/30/2025

查看原文

在共进化半监督学习GAN中生成多个子代

作者: Francisco Sede\~no, Jamal Toutouh, Francisco Chicano

arXiv:2504.20560v1 交叉类型公告摘要：生成对抗网络（GANs）是解决半监督学习（SSL）数据集的有效方法，得益于它们能够生成与真实数据相似的样本。这种被称为SSL-GAN的方法在过去十年中吸引了许多研究人员的关注。进化算法已被成功地用于指导SSL-GAN的进化和训练。特别是，已经应用了几种共同进化的策略，在这些策略中，GAN的两个网络（生成器和判别器）在单独的群体中进行共同进化。到目前为止发表的共同进化的策略假设群体具有某种空间结构，基于细胞进化算法的理念。此外，这些策略每一代只创造一个个体，并采用世代替代策略进化。在本文中，我们重新考虑了这些算法设计决策，并提出了一种新的共同进化的策略，称为共同进化的精英SSL-GAN（CE-SSLGAN），该策略使用泛谱群体、精英替代，并且每一代有多个个体后代。我们使用三个标准基准数据集评估我们提出的方法的性能。结果表明，每一代创建多个后代并使用精英替代可以改善与经典SSL-GAN的性能。

发布时间: 4/30/2025

查看原文

PRISM: 基于投影的奖励集成用于场景感知的少示例实到模再到实的转移

作者: Haowen Sun, Han Wang, Chengzhong Ma, Shaolong Zhang, Jiawei Ye, Xingyu Chen, Xuguang Lan

arXiv:2504.20520v1 交叉公告类型：cross 摘要：从少量演示学习以开发对机器人初始位置和物体姿态变化具有鲁棒性的策略，在机器人领域具有重要的实际意义。与常常难以从有限样本中泛化的imitation learning相比，reinforcement learning (RL) 可以自主探索以获得稳健的行为。通过直接与真实世界交互来训练RL代理往往 impractical 和不安全，而构建模拟环境则需要大量的手工努力，如设计场景和定制任务特定的奖励函数。为了解决这些挑战，我们提出了一种集成的 real-to-sim-to-real 管道，该管道根据专家演示从图像中识别场景对象，并从现有的库中检索它们对应的3D模型来构建模拟环境。我们引入了一种基于投影的奖励模型用于RL策略训练，该模型由使用人类引导的物体投影关系作为提示的视觉-语言模型（VLM）进行监督，并进一步使用专家演示对策略进行微调。总体而言，我们的工作重点在于构建模拟环境和基于RL的策略训练，最终能够在实际场景中部署可靠的人形控制策略。

发布时间: 4/30/2025

查看原文

节省令牌的提示注入攻击：通过自适应令牌压缩促使大模型推理停止

作者: Yu Cui, Yujun Cai, Yiwei Wang

arXiv:2504.20493v1 一类:横跨领域摘要:尽管大规模语言模型（LLMs）在各种任务中表现出色，但也存在明显的安全漏洞。近期的研究发现，DeepSeek-R1 存在一种名为“思考停止”的漏洞，其中模型生成的推理标记可以强制中断推理过程，导致空响应并损害集成 LLM 的应用程序。然而，现有的触发该漏洞的方法需要复杂的数学文字问题，并且提示长度甚至超过5000个标记。为降低标记成本并正式定义该漏洞，我们提出了一种基于自适应标记压缩的新颖的提示注入攻击，称为“推理中断攻击”。我们证明，简单的独立算术任务可以有效触发该漏洞，而基于此类任务的提示具有比数学文字问题更简单的逻辑结构。我们开发了一种系统方法来有效收集攻击提示，并利用LLMs开发了一种自适应标记压缩框架，自动压缩这些提示。实验结果显示，我们的压缩框架显著减少了提示长度，同时保持了有效的攻击能力。我们进一步通过输出前缀评估攻击性能，并分析了该漏洞的根本原因，为提高推理LLMs的安全性提供了宝贵的见解。

发布时间: 4/30/2025

查看原文

组相关知识蒸馏：学习教师的关系归纳偏见

作者: Chao Li, Changhua Zhou, Jia Chen

arXiv:2504.20482v1 交叉公告类型摘要：知识蒸馏通常通过最小化教师模型和学生模型输出分布之间的差异，将知识从教师模型转移到学生模型。然而，现有的蒸馏方法大多专注于模仿绝对概率，而忽视了嵌入在教师相对预测中的宝贵关系性归纳偏差，导致暴露偏差。在本文中，我们提出了组相对知识蒸馏（GRKD），这是一种新颖的框架，通过学习类别的相对排行榜来蒸馏教师知识，而不是直接拟合绝对分布。具体来说，我们引入了一种组相对损失，该损失鼓励学生模型保留由教师输出提供的两两偏好顺序。在对分类基准的广泛实验中，GRKD 在要求精细类别区别的任务中表现出优于现有方法的泛化能力。我们的方法为利用教师知识提供了一个新的视角，侧重于关系结构而非绝对似然性。

发布时间: 4/30/2025

查看原文