arXiv 论文列表

MOSEL：面向欧盟语言的开源语音基础模型训练的 95 万小时语音数据

作者: Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri

基础模型（FMs）的兴起，加上针对其风险和影响的监管努力，引发了人们对开源模型的浓厚兴趣。然而，现有的语音基础模型（SFMs）即使声称是开源的，也未能完全遵守开源原则，因为没有现有的 SFM 在开源条款下公开提供模型权重、代码和训练数据。在本研究中，我们通过关注欧盟（EU）的 24 种官方语言，迈出了填补这一差距的第一步。我们通过调查自动语音识别数据集和在开源许可证下未标记的语音语料库，收集了适合的训练数据，总计 950,000 小时。此外，我们以宽松的 CC-BY 许可证发布了 441,000 小时未标记数据的自动转录，从而促进为欧盟语言创建开源 SFMs。

发布时间: 10/3/2024

查看原文

视觉语言模型能否利用视觉线索解决文本歧义？让我们用视觉双关语来告诉你！

作者: Jiwan Chung, Seungwon Lim, Jaehyun Jeon, Seungbeen Lee, Youngjae Yu

人类拥有多模态的识字能力，使他们能够积极地整合来自各种模态的信息进行推理。面对文本中的词汇歧义等挑战，我们会借助其他模态，例如缩略图或教科书插图来补充。机器是否可以实现类似的多模态理解能力？为了回答这个问题，我们提出了理解双关语的图像解释（UNPIE），这是一个新颖的基准，旨在评估多模态输入在解决词汇歧义中的影响。双关语由于其固有的歧义性，成为此评估的理想主题。我们的数据集包含 1000 个双关语，每个双关语都附带一张解释两种含义的图片。我们通过注释提出了三个多模态挑战，以评估多模态识字的不同方面：双关语定位、消歧和重建。结果表明，在提供视觉语境的情况下，各种苏格拉底模型和视觉语言模型比仅文本模型表现更好，尤其是在任务复杂性增加的情况下。

发布时间: 10/3/2024

查看原文

鲁棒引导扩散用于离线黑盒优化

作者: Can (Sam), Chen, Christopher Beckham, Zixuan Liu, Xue Liu, Christopher Pal

离线黑盒优化旨在利用一组离线数据集（包含设计方案及其测量属性）来最大化黑盒函数。目前已出现两种主要方法：正向方法，它学习从输入到其值的映射，从而充当引导优化的代理；反向方法，它学习从值到输入的映射，用于条件生成。（a）虽然无代理（无分类器）扩散在鲁棒地建模反向映射方面显示出希望，但它缺乏来自代理的显式指导，而显式指导对于生成超出训练分布的高性能样本至关重要。因此，我们提出了*代理增强采样*，它利用来自训练代理的显式指导来增强无代理扩散，并提供增强的采样控制。（b）然而，训练后的代理容易受到分布外问题的影响。为了解决这个问题，我们设计了*基于扩散的代理细化*模块，该模块将来自无代理扩散的见解无缝地集成到代理中以进行细化。总而言之，我们提出了*用于离线黑盒优化的鲁棒引导扩散*（RGD），它结合了代理（显式指导）和无代理扩散（鲁棒性）的优势，以实现有效的条件生成。RGD 在各种设计基准任务上取得了最先进的结果，突出了其有效性。我们的代码位于 https://anonymous.4open.science/r/RGD-27A5/README.md。

发布时间: 10/3/2024

查看原文

基于广义声音分类体系和数据集的异构声音分类

作者: Panagiota Anastasopoulou, Jessica Torrey, Xavier Serra, Frederic Font

自动声音分类在机器听觉领域有着广泛的应用，能够实现上下文感知的声音处理和理解。本文探讨了自动分类具有高类内变异性的异构声音的方法。我们的研究使用广义声音分类法评估分类任务，这是一个包含 28 个类别的双层分类法，旨在涵盖具有语义区分的各种异构声音，以满足实际用户应用的需求。我们通过手动标注构建数据集，以确保准确性，每个类别中都有多样化的表示，并且与现实场景相关。我们比较了各种传统和现代机器学习方法，以建立异构声音分类任务的基线。我们研究了输入特征的作用，特别是检查了声学衍生的声音表示与使用预训练深度神经网络提取的嵌入的比较，这些嵌入捕获了声音的声学和语义信息。实验结果表明，编码声学和语义信息的音频嵌入在分类任务中获得了更高的准确率。在仔细分析分类错误后，我们确定了一些潜在的失败原因，并提出了减轻这些错误的措施。本文强调了需要更深入地探索分类的各个阶段，理解数据并采用能够有效处理数据复杂性和在现实世界声音环境中泛化的 методология。

发布时间: 10/3/2024

查看原文

面向内窥镜相机深度估计的全参数和参数高效自学习方法

作者: Shuting Zhao, Chenkang Du, Kristin Qi, Xinrong Chen, Xinhan Di

近年来，人们开发了适应方法，将深度基础模型应用于内窥镜深度估计。然而，这些方法通常在训练中表现不佳，因为它们将参数搜索限制在低秩子空间，并改变了训练动态。因此，我们提出了一种用于内窥镜深度估计的全参数和参数高效学习框架。在第一阶段，注意力、卷积和多层感知的子空间在不同的子空间内同时进行适应。在第二阶段，提出了一种内存高效的优化方法来进行子空间组合，并在统一的子空间中进一步提高性能。在 SCARED 数据集上的初步实验表明，与最先进模型相比，第一阶段的结果将 Sq Rel、Abs Rel、RMSE 和 RMSE log 的性能从 10.2% 提高到 4.1%。

发布时间: 10/3/2024

查看原文

基于图的帕金森病多模态运动障碍评估分析

作者: Favour Nerrise (Department of Electrical Engineering, Stanford University, Stanford, CA, USA), Alice Louise Heiman (Department of Computer Science, Stanford University, Stanford, CA, USA), Ehsan Adeli (Department of Computer Science, Stanford University, Stanford, CA, USA, Department of Psychiatry and Behavioral Sciences, Stanford University, Stanford, CA, USA)

医疗技术的快速发展导致了多模态医疗数据的指数级增长，包括影像学、基因组学和电子健康记录 (EHR)。图神经网络 (GNN) 因其在捕获成对关系方面的突出性能而被广泛用于表示这些数据。然而，多模态医疗数据的异质性和复杂性仍然对标准 GNN 构成了重大挑战，这些 GNN 在学习更高阶的非成对关系方面存在困难。本文提出了 GAMMA-PD（基于图的多模态帕金森病运动障碍评估分析），这是一种用于多模态临床数据分析的新型异构超图融合框架。GAMMA-PD 通过保留患者特征和症状亚型之间的更高阶信息和相似性，将影像数据和非影像数据整合到“超网络”（患者群体图）中。我们还设计了一种基于特征的注意力加权机制来解释特征级对下游决策任务的贡献。我们在帕金森病进展标记物计划 (PPMI) 的临床数据和一个私有数据集上评估了我们的方法。我们证明了在预测帕金森病运动障碍症状方面的收益。我们的端到端框架还学习了患者特征子集之间的关联，以生成与临床相关的疾病和症状特征解释。源代码可在 https://github.com/favour-nerrise/GAMMA-PD 获取。

发布时间: 10/3/2024

查看原文

流式集成：时空流数据上的预测性查询

作者: Anderson Chaves, Eduardo Ogasawara, Patrick Valduriez, Fabio Porto

基于时空流数据的预测性查询带来了重大的数据处理和分析挑战。时空流数据涉及一组时间序列，其数据分布可能在空间和时间上发生变化，呈现出多种不同的模式。在这种情况下，假设单个机器学习模型能够充分处理这种变化可能会导致失败。为了解决这一挑战，我们提出了 StreamEnsemble，这是一种针对时空数据预测性查询的新方法，它根据底层时间序列分布和模型特征动态选择和分配机器学习模型。我们的实验评估表明，这种方法在准确性和时间方面明显优于传统的集成方法和单模型方法，与传统方法相比，预测误差显著降低了 10 倍以上。

发布时间: 10/3/2024

查看原文

ACEV：基于特征向量角度变化自适应的无监督交叠流形分割方法

作者: Subhadip Boral, Rikathi Pal, Ashish Ghosh

交叉流形分割一直是研究的重点，其中将与其他流形相交的单个流形分离，以发现其独特的属性。所提出的方法基于以下直觉：当 $D$ 维空间中具有 $d$ 维本征维度的流形与另一个流形相交时，数据方差在超过 $d$ 个方向上增长。所提出的方法测量局部数据方差并确定其向量方向。它计算具有非零方差的向量数量，从而确定流形的本征维数。为了检测交叉区域，该方法通过使用树结构构建，利用指数移动平均来适应子流形和父流形对应方向向量之间的角间隙的变化。因此，它将那些在同一流形中的数据点包含在内，这些数据点的邻域位于自适应角差范围内，最终识别出流形交叉区域中的数据点。那些包含在邻域识别的点中会增加其本征维数的数据点将根据数据方差和距离被移除。所提出的方法在 14 个真实世界数据集上，在 ARI 和 NMI 分数方面，比 18 种最先进的流形分割方法表现更好，并且具有更低的时间复杂度和更好的稳定性。

发布时间: 10/3/2024

查看原文

IBM 量子计算机：演进、性能与未来方向

作者: M. AbuGhanem

量子计算机代表着计算技术领域的一次变革性突破，有望超越经典计算的局限性，实现指数级加速。IBM 量子在硬件和软件方面取得了重大进展，自 2016 年起通过 IBM 云提供对量子硬件的访问，并通过世界上第一台可访问的量子计算机实现了里程碑式的突破。本文探讨了 IBM 的量子计算之旅，重点关注实用型量子计算机的开发。我们总结了 IBM 量子处理器跨代的演变和进展，包括其最近突破 1000 量子比特障碍的成就。本文回顾了各种硬件的详细性能指标，追踪了它们随时间的演变，并强调了 IBM 量子从嘈杂的中等规模量子 (NISQ) 计算时代向容错量子计算能力的转变。

发布时间: 10/3/2024

查看原文

组合贝叶斯优化中的乐观博弈及其在蛋白质设计中的应用

作者: Melis Ilayda Bal, Pier Giuseppe Sessa, Mojmir Mutny, Andreas Krause

贝叶斯优化（BO）是一种强大的框架，通过顺序交互来优化难以评估的黑盒函数。然而，在许多重要的问题中（例如药物发现、电路设计、神经架构搜索等），这些函数定义在大型的组合和非结构化空间中。这使得现有的 BO 算法由于在这些域上难以处理的获取函数最大化而变得不可行。为了解决这个问题，我们提出了 **GameOpt**，一种新颖的博弈论方法来进行组合 BO。**GameOpt** 在不同的优化变量之间建立了一个合作博弈，并选择作为上置信界获取函数的博弈均衡的点。这些是稳定的配置，从这些配置中，没有变量有动力偏离 - 与连续域中的局部最优类似。至关重要的是，这使我们能够有效地将组合域的复杂性分解为单独的决策集，使 **GameOpt** 可扩展到大型组合空间。我们展示了 **GameOpt** 在具有挑战性的蛋白质设计问题中的应用，并在四个真实世界的蛋白质数据集上验证了其性能。每个蛋白质可以采用高达 $20^{X}$ 种可能的配置，其中 $X$ 是蛋白质的长度，这使得标准 BO 方法不可行。相反，我们的方法迭代地选择信息丰富的蛋白质配置，并与其他基线相比，非常快地发现了高活性蛋白质变体。

发布时间: 10/3/2024

查看原文