arXiv:2504.08541v1 宣布类型: cross
摘要: 我们介绍了一种新的大规模 photorealistic 3D 对象数字孪生数据集——Digital Twin Catalog (DTC)。3D 对象的数字孪生是一种高度详细、几乎无法区分的物理对象的虚拟表示,能够准确捕捉其形状、外观、物理属性和其他特性。近年来,在基于神经网络的3D重建和逆渲染方面取得的进展显著提高了3D对象重建的质量。尽管如此,仍然缺乏一个大规模的、具有数字孪生质量的真实世界数据集和基准,能够定量评估和比较不同重建方法的性能,以及通过训练或微调来提高重建质量。此外,为了使3D数字孪生的创建更加普及,有必要将创建技术与下一代第一人称计算平台(如AR眼镜)集成。目前,没有可用的数据集用于评估使用第一人称拍摄的图像进行3D对象重建的表现。为了解决这些差距,DTC数据集包含2,000个扫描的数字孪生质量3D对象,以及不同光照条件下由单反相机和第一人称AR眼镜拍摄的图像序列。该数据集建立了首个全面的真实世界评估基准,用于3D数字孪生创建任务,为比较和改进现有重建方法提供了坚实的基础。DTC数据集已发布在 https://www.projectaria.com/datasets/dtc/,我们还将公开基准评估。
arXiv:2504.08536v1 Announce Type: cross
摘要:随着边缘设备在无线网络中变得更加具备能力和无所不在,利用它们的集体计算能力进行分布式学习的兴趣也在增长。然而,优化网络边缘的学习面临着独特的挑战,尤其是当超出传统环境和目标时。尽管联邦学习(FL)已经成为分布式模型训练的关键范式,但仍存在着关键挑战。首先,现有方法往往忽视了预测准确性和解释性的权衡。其次,它们难以整合固有的可解释模型,如决策树,因为它们的非可微结构使得它们不适合基于反向传播的训练算法。最后,它们缺乏在资源受限环境中通过持续学习(CL)实现有意义的持续机器学习(ML)模型适应机制。在本文中,我们开辟了在网络边缘使用无线连接边缘设备进行分布式学习时出现的一系列新颖优化问题的道路,并明确了关键挑战和未来方向。具体而言,我们讨论了多目标优化(MOO)如何在使用复杂预测模型时用于解决预测准确性和可解释性之间的权衡问题。接下来,我们讨论了将固有的可解释的树基模型整合到分布式学习环境中的影响。最后,我们探讨了如何将CL策略与FL结合起来,在使用有限大小的缓冲区存储过往数据以进行重新训练时支持适应性的终身学习。我们的方法提供了一套综合的工具,用于设计针对边缘计算和智能服务需求的具有隐私保护、适应性和可信度的ML解决方案。
arXiv:2504.08530v1 交叉公告类型:
摘要:层次图聚池化(HGP)旨在考虑到传统的图神经网络(GNN)天生是平面结构的,且不具备多尺度特性。然而,大多数HGP方法不仅忽略了图的整体拓扑结构,专注于特征学习方面,而且它们也没有对局部和全局特征进行对齐,因为图应该以多尺度方式进行分析。本文提出了一种名为LGRPool的HGP方法,将其置于机器学习中的期望最大化框架内,通过正则化项强制在不同尺度的HGP层次表示之间,使局部和全局的图信息传递保持一致。在一些图分类基准上的实验结果表明,它在某些情况下略优于一些基线方法。
arXiv:2504.08526v1 类型: cross
摘要:生成式人工智能在科学领域中的应用越来越广泛,从蛋白质折叠到气候建模。然而,这些模型会产生特定的错误,被称为幻觉——这些错误表面上看起来是对的,但实际上却是错误的。更糟糕的是,一些论证表明,幻觉是由生成推理背后机制不可避免的结果。幸运的是,这些论证依赖于仅基于模型内部属性来定义幻觉的概念,而没有将其与实际目标系统进行比较。这种概念未能区分对科学推理无害的错误与那些有害的错误。我引入了腐蚀性幻觉的概念,以捕捉令人关注的子类:实质性误导且难以系统预见的误述。我论证虽然腐蚀性幻觉确实对科学可靠性构成威胁,但它们并不是不可避免的。像AlphaFold和GenCast那样的科学工作流程,都可以通过在训练过程中施加理论限制,并在推理时战略性地筛查错误,来抵消它们的影响。在这样的工作流程中,生成式人工智能可以可靠地为科学知识做出贡献。
arXiv:2504.08524v1 语音转换类型: 交叉
摘要: 语音转换(VC)通过保留内容将源语音转换为目标音色。然而,源说话人的音色信息不可避免地嵌入在内容表示中,导致显著的音色泄漏,并降低与目标说话人的相似度。为了解决这一问题,我们在内容提取器中引入了一个残差块。该残差块由两个加权分支组成:1) 以通用语义词典为基础的内容特征重新表示(CFR)模块,提供无音色的内容表示。2) 对原始内容层的跳跃连接,提供补充的细粒度信息。在CFR模块中,通用语义词典中的每个词典条目代表一个音素类别,通过从多个说话人的语音中进行统计计算得出,形成一个稳定且说话人独立的语义集。我们引入了一种CFR方法,通过使用相应音素后验概率作为权重,将每个内容帧表示为词典条目的加权线性组合,以获得无音色的内容表示。在各种语音转换框架中的广泛实验表明,我们的方法有效地减轻了音色泄漏,并显著提高了与目标说话人的相似度。
arXiv:2504.08490v1 类型: cross
摘要:现代企业计算系统通过产生新兴行为来共同解决一个常见任务,集成了众多子系统。一种广泛采用的方法是使用网络技术实现的服务,如 REST 或 OpenAPI,这些服务提供了互动机制和服务文档标准。每个服务代表特定的业务功能,允许封装并简化维护。尽管在单个服务层面降低了维护成本,但集成复杂性也随之增加。因此,出现了自动服务组合方法以缓解这一问题。然而,由于这些方法依赖于复杂的正式建模,因此在实践中并未获得高接受度。在本博士论文中,我们分析了使用大型语言模型(LLMs)根据自然语言输入自动集成服务的应用。结果是可重用的服务组合,例如作为程序代码。虽然这些结果不一定完全正确,但它们仍然可以为集成工程师提供接近理想的解决方案,这种解决方案只需很少的努力便可以投入运行。我们的研究包括(i)介绍使用 LLMs 自动服务组合的软件架构,(ii)分析用于服务发现的检索增强生成(RAG),(iii)提出基于自然语言查询的服务发现新基准,以及(iv)扩展基准以涵盖完整的服务组合场景。我们已经将我们的软件架构作为 Compositio Prompto 呈现,并对用于服务发现的 RAG 的分析进行了阐述,并提交了服务发现基准的提案。待解决的主题主要集中在扩展服务发现基准以涵盖服务组合场景以及改进服务组合生成,例如通过微调或 LLM 代理。
arXiv:2504.08481v1 类型: cross
摘要: 在许多医学成像任务中,卷积神经网络(CNNs)能够有效地分层次地提取局部特征。近年来,视觉变换器(ViTs)因其使用自注意力机制来捕捉全局依赖性而受到关注,但缺乏卷积所固有的空间局部化。因此,已经开发出了将CNN和ViT相结合的混合模型,以结合这两种架构的优点。然而,这样的CNN-ViT混合模型难以解释,这妨碍了它们在医学成像中的应用。在这项工作中,我们介绍了一种由设计可解释的混合全卷积CNN-Transformer架构,用于医学图像分类。与广泛使用的后验显性方法不同,我们的方法生成了忠实且局部化的证据图,直接反映了模型的决策过程。我们在使用彩色视网膜图像的两个医学图像分类任务上评估了我们的方法。我们的模型不仅在预测性能上优于传统的黑盒模型和可解释模型,还能够在单次前向传播中提供特定类别的稀疏证据图。代码可以在 https://anonymous.4open.science/r/Expl-CNN-Transformer/ 获取。
arXiv:2504.08470v1 Announce Type: cross
摘要:近年来,作为生成模型训练的神经语音编解码器(NSC)在低比特率下表现出比传统编解码器更优秀的性能。尽管大多数最先进的NSC都是作为生成对抗网络(GANs)训练的,但最近一类生成模型扩散模型(DMs)由于其在图像生成方面超越GANs的优越性能,代表了一个有前景的替代方案。因此,DMs已经在各种其他音频生成应用中成功应用于音频和语音编码。然而,基于扩散的NSC的设计尚未以系统的方式进行探索。我们通过提供基于扩散模型DM的条件和输出域的综合分析来解决这个问题,共分为三个方面。首先,我们提出了一种分类方法,基于DM的条件和输出域。这个简单的概念框架允许我们定义基于扩散的NSC的设计空间,并将文献中现有的方法归类到相应的类别中。其次,我们系统地研究了尚未探索的设计,通过概念框架创建并评估了新的基于扩散的NSC。最后,我们通过客观指标和主观听感测试将提出的模型与现有的GAN和DM基线进行比较。
arXiv:2504.08456v1 综合类型:
摘要: 综合经典-量子模型旨在利用量子计算和经典机器学习的优势,但其实际潜力仍然了解不足。在这项工作中,我们开发了一种统一的数学框架来分析综合模型中的泛化能力,从而提供这些系统如何从数据中学习的见解。我们为 $N$ 个训练数据点、$T$ 个可训练的量子门以及范数受限的全连接层 $||F|| \leq \alpha$ 建立了一个新的泛化界,形式为 $O\big( \sqrt{\frac{T\log{T}}{N}} + \frac{\alpha}{\sqrt{N}}\big)$。这个界可以清晰地分解为量子和经典贡献,扩展了对各个组件的先前工作,并澄清了它们的相互作用。我们应用我们的结果到量子-经典卷积神经网络 (QCCNN),这是一种将量子卷积层与经典处理集成在一起的架构。除了这个界,我们还强调了在综合环境中应用经典统计学习理论的conceptual局限性,并提出了一些未来理论工作的有希望的方向。
arXiv:2504.08418v1 交叉公告类型
摘要:人工情报(AI)预测模型中的公平性日益受到重视,以支持在其如医疗保健和刑事司法等高风险领域负责任的应用。指南和实施框架强调了准确预测和公平结果的重要性。然而,当前的公平性工具包往往孤立地评估分类性能差异,对校准等其他关键方面关注不足。为了弥补这些不足,我们介绍了seeBias,这是一个用于全面评估模型公平性和预测性能的R包。seeBias提供了一个集成的评估,涵盖了分类、校准以及其他性能领域,提供了对模型行为的更完整视图。它包括可自定义的可视化工具,支持透明报告和负责任的人工智能实施。使用来自刑事司法和医疗保健的公开数据集,我们展示了seeBias如何支持公平性评估,并揭示了传统公平性指标可能忽视的差异。该R包可在GitHub上获得,同时正在开发Python版本。