arXiv 论文列表

作者: Yuancheng Wang, Jiachen Zheng, Junan Zhang, Xueyao Zhang, Huan Liao, Zhizheng Wu

arXiv:2502.03128v1 宣告类型：交叉摘要：我们介绍了Metis，一个统一语音生成的基础模型。与之前特定任务或多任务模型不同，Metis 遵循预训练和微调的范式。它使用掩蔽生成建模在大规模未标注语音数据上进行预训练，然后进行微调以适应多样的语音生成任务。具体来说，1）Metis 利用了两种离散语音表示：从语音自我监督学习（SSL）特征中派生的SSL标记，以及直接从波形中量化得到的声学标记。2）Metis 在SSL标记上进行掩蔽生成预训练，利用了多样化的30万小时语音数据，没有任何额外条件。3）通过特定任务的条件进行微调，Metis 在使用少量数据和可训练参数的情况下，能够高效地适应各种语音生成任务，同时支持多模态输入。实验表明，即使可训练参数少于2000万个或训练数据量少300倍，Metis 仍能在五个语音生成任务中超越最先进的特定任务或多任务系统，包括零样本文本到语音、语音转换、目标说话人提取、语音增强和唇形到语音。有关音频样本，请访问 https://metis-demo.github.io/。

发布时间: 2/6/2025

查看原文

差异中的解缠：通过最大化因素差异直接学习语义解缠表示

作者: Xingshen Zhang, Shuangrong Liu, Xintao Lu, Chaoran Pang, Lin Wang, Bo Yang

arXiv:2502.03123v1 类型: cross 摘要: 在这项研究中，提出了差异中的解混杂(DiD)方法，以解决潜在变量的统计独立性和解混杂表示学习中语义解混杂目标之间固有的不一致性。传统的解混杂方法通过提高潜在变量之间的统计独立性来实现解混杂表示。然而，潜在变量的统计独立性并不一定意味着它们在语义上是无关的，因此，提高统计独立性并不总是能够增强解混杂性能。为了解决上述问题，DiD 提出直接学习语义差异，而不是潜在变量的统计独立性。在 DiD 中，设计了一个差异编码器来衡量语义差异；建立了一个对比损失函数以促进跨维度比较。两者都允许模型直接区分和解混杂不同的语义因素，从而解决统计独立性和语义解混杂之间的一致性问题。在 dSprites 和 3DShapes 数据集上的实验结果表明，在各种解混杂指标上，提出的 DiD 显著优于现有主流方法。

发布时间: 2/6/2025

查看原文

在摩诃琵卢会，信仰遭遇悲剧：使用机器学习和自然语言处理进行踩踏模式的计算分析

作者: Abhinav Pratap

arXiv:2502.03120v1 类别:交叉学科摘要:本研究通过机器学习、历史分析和自然语言处理（NLP）探讨印度大规模宗教集会上反复发生的致命踩踏事件，重点关注2025年普拉亚格拉杰的大壶节悲剧（48人以上死亡）及其1954年的前兆事件（700多人伤亡）。通过计算模型研究人群动态和行政记录，该研究探讨系统性弱点如何导致这些灾难的发生。时间趋势分析指出持续存在的瓶颈点，较狭窄的河边通道与过去踩踏事件的92%地点有关，并且在具有精神意义的时刻，如满月晦日，致命的人群密度（每平方米八人或更多）反复出现。对七十年来调查报告的NLP分析揭示了周期性的行政失败，其中重要人物通道优先权导致安全资源在1954年和2025年都被转移，加剧了死亡人数。统计建模表明，仪式的紧迫感胜过了风险感知，导致恐慌传播模式与历史事件相呼应。研究结果支持了制度性健忘症理论，突出了灾难响应的反应性而非预防性。通过将档案模式与计算人群中行为分析相关联，该研究将踩踏事件刻画为基础设施限制、社会精神紧迫性与治理惰性的交汇点，挑战了灾难话语中的如何看待精神经济如何使可预防的死亡正常化的问题。

发布时间: 2/6/2025

查看原文

Tell2Reg: 通过相同的语言提示建立图像之间的空间对应关系

作者: Wen Yan, Qianye Yang, Shiqi Huang, Yipei Wang, Shonit Punwani, Mark Emberton, Vasilis Stavrinides, Yipeng Hu, Dean Barratt

arXiv:2502.03118v1 宣告类型：交叉摘要：空间对应可以通过分割区域对来表示，使得图像配准网络的目标是分割对应的区域，而不是预测位移场或变换参数。在这项工作中，我们展示了可以通过在两张不同图像上使用基于GroundingDINO和SAM的预训练大型多模态模型相同的语言提示来预测这样的对应区域对。这使我们能够开发出一种完全自动化且无需训练的配准算法，该算法可能适用于广泛的图像配准任务。在本文中，我们使用一个具有挑战性的任务展示了实验结果，即配准具有高度可变强度和形态的跨体前列腺MRI图像。Tell2Reg是无训练的，消除了之前为这项配准任务所需的昂贵且耗时的数据整理和标注需求。该方法在测试的基于无监督学习的配准方法中表现出色，其性能与弱监督方法相当。还提供了额外的定性结果，表明语言语义和空间对应之间可能存在关联，包括语言提示区域中的空间不变性和获得的局部和全局对应之间的语言提示差异。代码可在 https://github.com/yanwenCi/Tell2Reg.git 获取。

发布时间: 2/6/2025

查看原文

在线会议总结的策略与评估

作者: Felix Schneider (Zoom Communications), Marco Turchi (Zoom Communications), Alex Waibel (Karlsruhe Institute of Technology)

arXiv:2502.03111v1 类别: 综述摘要：随着越来越多的会议转移到数字领域，会议总结最近在学术和商业研究中获得了兴趣。然而，之前的学术研究主要关注作为脱机任务的会议总结，即在会议结束后进行。在这项工作中，我们首次进行了在线会议总结的系统研究。为此，我们提出了几种进行在线总结的策略。我们讨论了与脱机设置相比，这个任务的独特挑战，并定义了新的指标来评估延迟和部分总结的质量。对AutoMin数据集的实验表明：1）在线模型可以生成强大的摘要；2）我们的指标允许对不同系统的延迟-质量权衡进行详细的分析，同时也考虑中间输出；3）自适应策略的表现优于固定调度策略。这些发现为更广泛的科研界探索这一重要的任务提供了起点。

发布时间: 2/6/2025

查看原文

贝尔曼误差中心化

作者: Xingguo Chen, Yu Gong, Shangdong Yang, Wenhao Wang

arXiv:2502.03104v1 类型:跨领域摘要：本文重新审视了最近提出的奖励中心化算法，包括简单的奖励中心化（SRC）和基于价值的奖励中心化（VRC），指出SRC确实是奖励中心化，而VRC本质上是贝尔曼误差中心化（BEC）。基于BEC，我们提供了表值函数的中心化不动点，以及线性值函数逼近的中心化TD不动点。我们设计了在线策略的CTD算法和离线策略的CTDC算法，并证明了两种算法的收敛性。最后，我们通过实验验证了我们提出算法的稳定性。贝尔曼误差中心化促进了各种强化学习算法的扩展。

发布时间: 2/6/2025

查看原文

E-3SFC：双向特征合成的通信高效联邦学习

作者: Yuhao Zhou, Yuxin Tian, Mingjia Shi, Yuanxi Li, Yanan Sun, Qing Ye, Jiancheng Lv

arXiv:2502.03092v1 宣告类型: cross 摘要：模型大小的指数增长显著增加了联邦学习（FL）中的通信负担。现有通过传输压缩梯度来缓解这一负担的方法往往面临高压缩错误的问题，这会减慢模型的收敛速度。为同时实现高压缩效率和较低的压缩错误，我们从全新的角度研究了梯度压缩问题。具体而言，我们提出了一种系统性的算法，称为扩展单步合成特征压缩（E-3SFC），该算法由三个子组件组成，即单步合成特征压缩器（3SFC）、双向压缩算法和通信预算调度器。首先，我们将模型梯度计算过程视作从相应输入中解压缩梯度的过程，而逆过程则视为压缩梯度。基于此，我们引入了一种新颖的梯度压缩方法，称为3SFC，该方法利用模型本身作为解压缩器，利用训练先验，如模型权重和目标函数。3SFC在单步模拟中将原始梯度压缩为小型合成特征，并结合误差反馈以最小化整体压缩误差。为了进一步减少通信开销，3SFC 被扩展为 E-3SFC，允许双向压缩和动态通信预算调度。在强凸和非凸条件下，我们的理论分析表明，3SFC 可以在聚合噪声的情况下实现线性和亚线性收敛率。广泛实验在六个数据集和六个模型上显示，3SFC 在通信成本降低 111.6 倍的情况下，比现有最佳方法性能高出 13.4%。这些发现表明，3SFC 可以在不牺牲模型性能的情况下显著提升 FL 中的通信效率。

发布时间: 2/6/2025

查看原文

实现大型量子玻尔兹曼机作为生成AI模型以平衡数据集

作者: Salvatore Sinno, Markus Bertl, Arati Sahoo, Bhavika Bhalgamiya, Thomas Gro{\ss}, Nicholas Chancellor

arXiv:2502.03086v1 类型: cross 摘要：本研究探讨了在 D-Wave 的 Pegasus 量子硬件上实现大型量子受限制玻尔兹曼机（QRBMs）作为生成模型，以解决入侵检测系统（IDS）数据集不平衡问题。通过利用 Pegasus 提升的连接性和计算能力，成功嵌入了一个包含 120 个可见单元和 120 个隐藏单元的 QRBM，突破了默认嵌入工具的限制。该 QRBM 合成了超过 160 万攻击样本，实现了超过 420 万条记录的平衡数据集。与传统的平衡方法，如 SMOTE 和 RandomOversampler 相比，QRBMs 生成了更高质量的合成样本，显著提高了各种分类器的检测率、精度、召回率和 F1 分数。研究突显了 QRBMs 的可扩展性和效率，可在毫秒内完成平衡任务。这些发现强调了量子机器学习（QML）和量子受限制玻尔兹曼机（QRBMs）在数据预处理中的变革潜力，为现代信息系统中的复杂计算挑战提供了稳健的解决方案。

发布时间: 2/6/2025

查看原文

科扎克斯：JAX 中的灵活可扩展遗传编程

作者: Sigur de Vries, Sander W. Keemink, Marcel A. J. van Gerven

arXiv:2502.03047v1 交叉类型：摘要：遗传编程是受自然选择启发的优化算法，它可以自动演化计算机程序的结构。生成的计算机程序与具有固定结构的黑盒模型相比，更为可解释且高效。遗传编程中的适应度评估面临着高计算要求的挑战，这限制了其在困难问题上的性能。为了减少运行时间，许多遗传编程的实现需要特定的数据格式，这使得其应用范围受限于特定的问题类。因此，目前没有一种高效且适用于广泛任务的遗传编程框架。为了解决这一问题，我们开发了Kozax，这是一个能够针对任意问题演化符号表达式的遗传编程框架。我们使用了JAX框架进行实施，JAX是一种高性能、可扩展的机器学习框架，这使得适应度评估能够高效地扩展到大量种群或数据集，特别是在GPU上。此外，Kozax提供了常数优化、自定义操作符定义以及同时演化多个树的能力。我们展示了Kozax在发现自然法则方程、恢复隐藏动态变量方程以及演化控制策略方面的成功应用。总体而言，Kozax提供了一个通用、快速且可扩展的库，用于在科学计算领域优化白盒解决方案。

发布时间: 2/6/2025

查看原文

xai_evals : 一种评估后验局部解释方法的框架

作者: Pratinav Seth, Yashwardhan Rathore, Neeraj Kumar Singh, Chintan Chitroda, Vinay Kumar Sankarapu

arXiv:2502.03014v1 宣布类型: cross 摘要：机器学习和深度学习模型日益复杂，导致对不透明的“黑箱”系统依赖增强，这使得难以理解预测背后的逻辑。特别是在高风险应用场景中，可解释性与准确性同样重要，这种透明度的缺乏尤为突出。事后解释方法常用于解释这些模型，但它们很少被严格评估，这引起了对其可靠性的关注。Python包xai_evals通过提供一个全面的框架来生成、基准测试和评估跨表格和图像数据模态的解释方法来解决这一问题。它整合了流行的技术，如SHAP、LIME、Grad-CAM、集成梯度(IG)和反向追踪，同时支持诸如忠诚度、灵敏度和鲁棒性等评估指标。xai_evals增强了机器学习模型的可解释性，促进了AI系统的透明度和信任。该库在 https://pypi.org/project/xai-evals/ 开放源代码。

发布时间: 2/6/2025

查看原文