arXiv:2504.15066v1 交叉领域公告类型:
摘要:将视觉模态融入自动语音识别(ASR)任务中,显著提升了性能。然而,现有的音频-视觉语音识别(AVSR)数据集和方法通常仅依赖唇读信息或说话上下文的视频,忽视了结合这些不同有价值的视觉线索的可能性。本文中,我们发布了一个多模态中文AVSR数据集Chinese-LiPS,包含100小时的语音、视频和相应的手写转录,视觉模态包括唇读信息和演讲者使用的演示幻灯片。基于Chinese-LiPS,我们开发了一个简单而有效的管道LiPS-AVSR,利用唇读和演示幻灯片信息作为AVSR任务的视觉模态。实验表明,唇读信息和演示幻灯片信息分别提高了大约8%和25%的ASR性能,综合性能提升了约35%。该数据集可在 https://kiri0824.github.io/Chinese-LiPS/ 获取。
arXiv:2504.15063v1 交叉类型:智能合约安全
摘要:智能合约是去中心化应用和金融协议的基础,它们扩展了数字货币交易的应用范围。去中心化应用和金融协议的引入带来了重大的安全挑战,导致了巨大的经济损失。现有的解决方案主要集中在智能合约的代码漏洞上,仅占安全事件的50%。因此,对与智能合约相关的安全问题进行更全面的研究是必不可少的。现有的经验性研究从生命周期的角度实现了对智能合约的静态分析,并在每个阶段给出了相应的措施。然而,它们缺乏对每个阶段漏洞特征的分析以及漏洞之间的区分。在本文中,我们首次对智能合约在其整个生命周期(包括部署和执行、升级和销毁阶段)的安全性进行了经验性研究。该研究深入探讨了每个阶段的安全问题,并提供至少七种特征描述。最后,利用这七种特征,我们使用了五种机器学习分类模型来识别不同阶段的漏洞。分类结果表明,易受攻击的合约在不同阶段展现出不同的交易特征和ego网络属性。
arXiv:2504.15062v1 类别: cross
摘要: 我们提出了一种模型,用于在上下文随机优化问题中为变量做出数据采集决策。数据采集决策通常被视为分离且固定的。我们研究了数据采集上下文变量成本较高且因此受到约束的问题设置。数据采集问题通常通过针对代理目标(如覆盖率)的方法进行近似解决。更直观的目标是由于数据采集决策而产生的下游决策质量。整个流程可以描述为一种优化-预测-再优化(Optimize-Predict-Optimize, OPO)问题。相应地,最近的研究大多集中在如何将预测和优化(Prediction-Optimization, PO)整合在一起,形式上是决策导向的学习。我们提出利用可微优化来扩展这种整合,包括数据采集。通过学习一个潜在的线性目标函数来解决定义明确约束下的数据采集问题。我们首先在应用于一条最短路径问题上展示了这个模型的应用,其中需要设定无人机侦察策略以捕捉影像片段作为模型预测旅行成本的输入。我们使用多种训练方法消融了该问题,并展示了可微优化方法优于随机搜索策略的结果。
arXiv:2504.15051v1 激活函数类型:交叉
摘要:激活函数是深度神经网络的基础组成部分,直接影响梯度流动、优化稳定性和泛化能力。尽管 ReLU 由于其简单性仍然是标准选择,但它存在梯度消失的问题,并且缺乏适应性。Swish 和 GELU 等替代方案引入了平滑过渡,但无法动态调整输入统计数据。我们提出了一种名为 VeLU 的激活函数,这是一种基于输入方差动态缩放的激活函数,通过结合 ArcTan-Sin 变换和 Wasserstein-2 正则化,有效地缓解了协变量偏移并稳定了优化过程。在 ViT_B16、VGG19、ResNet50、DenseNet121、MobileNetV2 和 EfficientNetB3 上进行的广泛实验表明,VeLU 在六项视觉基准测试中优于 ReLU、ReLU6、Swish 和 GELU。VeLU 的代码已在 GitHub 上公开可供下载。
arXiv:2504.15044v1 交叉类型: cross
摘要:生成AI的快速扩展推动了前所未有的高性能计算需求。现在训练大规模AI模型需要跨越多个数据中心的庞大互联GPU集群。多尺度AI训练和推理需要均匀、超低延迟和能效的链接,以使大规模GPU能够作为一个统一的整体功能。然而,传统的电气和光学互联依靠传统的数字信号处理器(DSPs)进行信号失真补偿,在满足这些严格要求方面越来越力不从心。为克服这些局限,我们提出了一种集成神经形态光学信号处理器(OSP),利用深度水库计算实现无DSP、全光学、实时处理。实验结果显示,我们的OSP在每个通道实现了100 Gbaud PAM4,通过C波段5 km光纤(相当于O波段超过80 km)的数据中心互联速率达到了1.6 Tbit/s,远远超过了最先进的DSP解决方案,这些解决方案从根本上受限于IMDD系统中的色散。同时,它将处理延迟降低了四个数量级,能量消耗降低了三个数量级。与DSP不同,后者在高数据率时引入了增加的延迟,而我们的OSP无论数据率如何增加都能保持一致的超低延迟,使其成为未来光学互联的理想选择。此外,OSP保留了完整的光学场信息,以更好地补偿损伤,并能适应各种调制格式、数据率和波长。使用成熟的硅光子工艺制造,OSP可以与硅光子收发器实现一体化集成,增强光学互连的紧凑性和可靠性。这项研究提供了一种高度可扩展、节能和高速的解决方案,为下一代AI基础设施铺平了道路。
arXiv:2504.15041v1 公告类型:交叉
摘要:终身人员再识别(LReID)面临一个关键挑战,即在适应新信息的同时保留旧知识。现有的解决方案包括基于排练和不基于排练的方法来解决这一挑战。基于排练的方法依赖于知识蒸馏,在蒸馏过程中持续累积遗忘。不基于排练的方法未能充分学习每个领域的分布,导致随着时间的推移遗忘。为了解决这些问题,我们提出了一种新的基于分布的遗忘补偿(DAFC)模型,该模型在无需使用旧示例或知识蒸馏的情况下探索跨领域共享表示学习和领域特定分布集成。我们提出了一种基于文本提示聚合(TPA),利用文本特征丰富提示元素,指导提示模型学习每个实例的细粒度表示。这可以增强身份信息的差异性,并为领域分布意识奠定基础。然后,我们设计了基于分布的意识和集成(DAI),通过专用专家网络捕获每个领域的特定分布,并以自适应方式将它们整合到高维空间中的共享区域。通过这种方式,DAI可以在缓解灾难性遗忘的同时,增强跨领域共享表示学习。此外,我们开发了一种知识整合机制(KCM),该机制包括实例级差异性和跨领域一致性对齐策略,分别促进模型从当前领域中适应性学习新知识,并推动在获得的领域特定分布之间的知识整合学习。实验结果表明,我们的DAFC在两个训练顺序上分别在mAP/R@1的平均值上比最先进的方法高出9.8%/6.6%和6.4%/6.2%。
arXiv:2504.15035v1 安全公告类型: 交叉
摘要: 语音生成模型的加速发展导致了安全问题,包括模型侵权和未经授权对内容的滥用。尽管现有的生成水印技术已经提出了相应的解决方案,但大多数方法都需要大量的计算开销和训练成本。此外,一些方法在处理变长输入时在鲁棒性方面存在限制。为了解决这些问题,我们提出了一种名为SOLIDO的新型生成水印方法,该方法通过低秩适应(LoRA)将参数高效的微调与语音水印技术结合到语音扩散模型中。具体而言,水印编码器将水印转换为与扩散模型输入对齐。为了从变长输入中精确提取水印,基于深度可分离卷积的水印解码器被设计用来恢复水印。为了进一步提高语音生成性能和水印提取能力,我们提出了一种基于语音驱动的轻量级微调策略,通过LoRA减少计算开销。全面的实验结果表明,所提出的方法即使在2000 bps的大容量下也能确保高保真度的带水印语音。此外,针对常见的单一语音攻击和复合语音攻击,我们的SOLIDO分别实现了99.20%和98.43%的最高平均提取准确率。与最新的方法相比,在抵抗时间拉伸攻击方面,其性能几乎高出23%。
arXiv:2504.14995v1 类型: cross
摘要:树张量网络(TTNs)为图像分类提供了强大的模型。虽然这些TTN图像分类器已经在经典硬件上表现出色,但将它们嵌入到量子神经网络(QNNs)中可以通过利用量子资源进一步提高性能。然而,将TTN分类器嵌入到QNN中进行多类别分类仍然具有挑战性。主要障碍在于,对于大bond维度所需的高阶门操作,以及为了精确嵌入而必须使用成功率极低的电路中段后选择操作。在这个工作中,为了解决这些挑战,我们提出了一种森林张量网络(FTN)分类器,它聚合了多个小bond维度的TTN。这使得我们可以在嵌入电路中不需要大型门的情况下处理多类别分类问题。随后,我们通过将自谐波编码框架扩展到我们的设置中去除电路中段后选择的操作开销,并平滑地将FTN分类器编码到量子森林张量网络(qFTN)分类器中。在MNIST和CIFAR-10上的数值实验表明,我们能够成功训练FTN分类器并将它们编码到qFTN分类器中,同时保持甚至提高了预训练的FTN分类器的性能。这些结果表明,TTN分类模型与QNN之间的协同作用可以为多类别量子增强图像分类提供一个稳健且可扩展的框架。
arXiv:2504.14985v1 安全类型:跨域
摘要:评估大型语言模型(LLMs)的安全性和安全性仍然是一项复杂的任务,通常需要用户导航一个由随意基准、数据集、度量标准和报告格式组成的碎片化景观。为了解决这一挑战,我们介绍了aiXamine,这是一个全面的黑盒评估平台,用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试(即基准),这些测试组织成八个关键服务,针对安全性和安全性中的特定维度:对抗性稳健性、代码安全、公平性和偏差、幻觉、模型和数据隐私、离分布稳健性、过度拒绝以及安全性对齐。该平台将评估结果整合成每个模型的单个详细报告,提供模型性能的详细分解、测试示例和丰富的可视化。我们使用aiXamine评估了超过50个公共和专有的LLM,进行了超过2000次检查。我们的发现揭示了领先模型的显着漏洞,包括OpenAI的GPT-4o对对抗性攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0的隐私弱点。此外,我们观察到开源模型在特定服务如安全性对齐、公平性和偏差以及离分布稳健性上可以匹配或超过专有模型。最后,我们确定了蒸馏策略、模型大小、训练方法和架构选择之间的权衡。
arXiv:2504.14963v1 交叉类型公告
摘要:使用语音录音进行说话人识别利用了独特的声学特征,但在仅可用文本数据的情况下,这种方法会失效。很少有方法试图仅从文本中识别说话人,而现有的方法主要依赖于传统的方法。在这项工作中,我们探索了使用大型预训练模型的模糊指纹来提高基于文本的说话人识别的效果。我们结合了说话人特定的标记和上下文感知建模,证明了对话上下文显著提升了准确性,在Friends数据集上达到了70.6%,在Big Bang Theory数据集上达到了67.7%。此外,我们展示了模糊指纹可以用更少的隐藏单元近似完全微调的效果,提供了更好的可解释性。最后,我们分析了含糊不清的言论,并提出了一种机制来检测无特定说话人的台词。我们的发现突出了关键挑战,并为未来基于文本的说话人识别改进提供了见解。