arXiv 论文列表

作者: Shenran Wang, Changbing Yang, Mike Parkhill, Chad Quinn, Christopher Hammerly, Jian Zhu

arXiv:2502.02703v1 论文类型: cross 摘要: 我们介绍了针对北美三种原住民语言奥吉贝瓦语、米克马克语和马里斯特语的轻量化流匹配多语言文本-to-语音(TTS)系统。我们的结果显示，在三种类型学相似的语言上训练多语言TTS模型可以提高性能，尤其是在数据稀缺的情况下。无注意力架构在内存效率方面与自我注意力架构竞争激烈。我们的研究不仅推动了低资源语言复原的技术开发，还突显了人类评估协议中的文化差距，呼吁采取更加以社区为中心的人类评估方法。

发布时间: 2/6/2025

查看原文

因果推断中实用有效的调整变量选择

作者: Atsushi Noda, Takashi Isozaki

arXiv:2502.02701v1 类型: cross 摘要：在估计因果效应时，一种常见的去除混杂因素影响的方法是调整满足后门准则的变量。然而，通常无法唯一确定这样的变量集。此外，现实世界的数据往往有限，这意味着可能不足以进行统计估计。因此，我们提出了从候选调整变量列表中选择变量的标准，并提出了一种算法以防止在因果效应估计中准确性下降。我们最初关注有向无环图（DAGs），然后概述将此方法应用于部分有向无环图（CPDAGs）的具体步骤。我们还提出了一个关于CPDAGs中因果效应计算可能性的定理，并进行了证明。最后，我们使用现有和人工数据展示了我们方法的实际应用价值。

发布时间: 2/6/2025

查看原文

可控视频生成与可证明的解耦

作者: Yifan Shen, Peiyuan Zhu, Zijian Li, Shaoan Xie, Zeyu Tang, Namrata Deka, Zongfang Liu, Guangyi Chen, Kun Zhang

arXiv:2502.02690v1 Announce Type: cross 摘要：尽管在生成高质量且一致的视频方面取得了最近的进展，可控视频生成仍然是一项重大挑战。现有的大部分方法在控制视频生成时将视频视为整体，忽略了复杂的细粒度空间时间关系，这限制了控制的精确性和效率。在本文中，我们提出了一种可控视频生成对抗网络（CoVoGAN），以分离视频概念，从而实现对各个概念的高效且独立的控制。具体而言，根据最小变化原则，我们首先分离静态和动态潜在变量。然后利用足够的变化性质实现动态潜在变量的组件级可识别性，从而实现对运动和身份的独立控制。为了建立理论基础，我们提供了一种严格的分析来证明我们方法的可识别性。基于这些理论洞察，我们设计了时间转换模块以分离潜在动态。为了实施最小变化原则和足够的变化性质，我们减少了潜在动态变量的维度并施加了时间条件独立性。为了验证我们的方法，我们将该模块作为GAN的插件进行集成。在各种视频生成基准上的广泛定性和定量实验表明，我们的方法在各种现实场景中显著提高了生成质量和可控性。

发布时间: 2/6/2025

查看原文

基于转换器的多讲话人语音翻译中的说话人变更检测与性别分类

作者: Peidong Wang, Naoyuki Kanda, Jian Xue, Jinyu Li, Xiaofei Wang, Aswin Shanmugam Subramanian, Junkun Chen, Sunit Sivasankaran, Xiong Xiao, Yong Zhao

arXiv:2502.02683v1 Announce Type: cross 摘要：流式多说话人口语翻译不仅涉及生成低延迟的准确且流畅的翻译，还涉及识别说话人变化以及确定说话人的性别。说话人变化的信息可以用于为零样本的文本到语音系统创建音频提示，而性别则有助于在传统文本到语音模型中选择说话人档案。我们提出通过将说话人嵌入融合到基于转换器的流式端到端口语翻译模型中，来解决流式说话人变化检测和性别分类问题。我们的实验表明，所提出的方法可以同时实现高精度的说话人变化检测和性别分类。

发布时间: 2/6/2025

查看原文

医RAX：胸部X光医学推理代理

作者: Adibvafa Fallahpour, Jun Ma, Alif Munim, Hongwei Lyu, Bo Wang

arXiv:2502.02673v1 Announce Type: cross 摘要：胸部X光片（CXR）在驱动疾病管理和患者护理的关键决策中发挥着重要作用。虽然近期的创新已经带来了多种专门针对CXR解释任务的模型，但这些解决方案往往独立运行，限制了它们在临床实践中的实用性。我们提出了MedRAX，这是第一个将先进的CXR分析工具和多模态大型语言模型无缝集成到统一框架中的多功能AI代理。MedRAX动态利用这些模型来应对复杂的医学查询，而无需额外训练。为了严格评估其能力，我们引入了包含2,500个复杂医学查询的全面基准，这些查询涵盖了7个不同的类别。实验结果表明，MedRAX在与开源和专有模型的比较中达到了最先进的性能，标志着自动化CXR解释系统实用部署的一个重要步骤。数据和代码已在https://github.com/bowang-lab/MedRAX公开可用。

发布时间: 2/6/2025

查看原文

在语言模型精炼中的教师黑客攻击

作者: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ram\'e, Mathieu Blondel

arXiv:2502.02671v1 宣布类型:交叉摘要：语言模型（LMs）的后训练阶段越来越多地依赖于以下两个阶段：(i) 知识精简，其中LM被训练以模仿一个较大的教师LM，和(ii) 从人类反馈强化学习（RLHF），其中通过优化奖励模型使LM对齐。在第二个RLHF阶段，一个已知的挑战是奖励作弊，即LM过度优化奖励模型。这种现象符合Goodhart定律，并可能导致对真正目标的性能下降。在本文中，我们研究了在知识精简过程中是否会出现类似的现象，我们称之为教师作弊。这可能是由于教师LM本身并不是真实分布的良好近似。为了研究这一点，我们提出了一种受控的实验设置，包括：(i) 一个代表真实分布的或先知LM，(ii) 由或先知生成的教师LM，和(iii) 由教师生成的学生LM。我们的实验揭示了以下见解。使用固定离线数据集进行精简时，会出现教师作弊现象；此外，我们可以通过观察优化过程是否偏离多项式收敛规律来检测它。相反，采用在线数据生成技术有效地减轻了教师作弊现象。更具体地，我们确定数据多样性是防止作弊的关键因素。总体而言，我们的研究结果为我们提供了关于精简对于构建稳健和高效LM的好处和限制的更深入理解。

发布时间: 2/6/2025

查看原文

一种无需训练的长度外推方法：贪婪注意力 logits 插值（GALI）

作者: Yan Li, Tianyi Zhang, Zechuan Li, Soyeon Caren Han

arXiv:2502.02659v1 类型: cross 摘要: 基于变压器的大型语言模型（LLMs）在处理超过其训练上下文窗口的输入时存在困难，性能由于位置分布外（O.O.D.）的出现而下降，这会扰乱注意力计算。现有的解决方案，如微调和无监督方法，受到了计算效率低下、注意力logit异常值或局部位置信息丢失的限制。为了解决这一问题，我们提出了贪婪注意力logit插值（GALI，Greedy Attention Logit Interpolation），这是一种无监督的方法，可以在最大化利用预训练位置区间的同时，通过注意力logit插值避免注意力logit异常值。结果显示，GALI 一致地优于现有最先进的无监督方法。我们的研究发现表明，LLMs在其训练上下文窗口内不均匀地解释位置区间，暗示在较小的位置区间范围内进行外推可以取得更好的效果，即使是对短上下文任务也是如此。GALI 代表了解决位置O.O.D.挑战的重要一步，使LLMs在理解长文本时更可靠。我们已经在 https://github.com/AcademyCityL/GALI 开源了GALI的实现及其论文中的实验。

发布时间: 2/6/2025

查看原文

帕罗托Q: 极其低比特LLM量化中的标度规律

作者: Zechun Liu, Changsheng Zhao, Hanxian Huang, Sijia Chen, Jing Zhang, Jiawei Zhao, Scott Roy, Lisa Jin, Yunyang Xiong, Yangyang Shi, Lin Xiao, Yuandong Tian, Bilge Soran, Raghuraman Krishnamoorthi, Tijmen Blankevoort, Vikas Chandra

arXiv:2502.02631v1 交叉类型: cross 摘要: 在量化模型大小与准确性的最佳权衡中的最优位宽至今仍存在争议。虽然有些人支持使用4位量化，另一些人则认为1.58位量化能提供更优的结果。然而，缺乏一个统一的框架使得这样的结论相对脆弱。我们提出了ParetoQ，这是首个统一框架，可促进对1位、1.58位、2位、3位和4位量化设置进行严谨的比较。我们的研究发现，在2位和3位之间存在显著的学习过渡：对于3位及以上的量化，微调后的模型保持在原始预训练分布附近，而学习2位及其以下的网络时，表示会发生巨大的变化。通过优化训练方案和改进量化函数，ParetoQ 超越了所有针对特定位宽定制的方法。更为惊人的是，我们的ParetoQ三值600M参数模型在准确率上甚至超越了之前的性能最佳三值3B参数模型，仅使用了五分之一的参数。广泛实验表明，在大小-准确性的权衡中，三值、2位和3位量化保持了可比的性能，并且通常优于4位和二值量化。考虑到硬件限制，2位量化在内存减少和加速方面展现出巨大的潜力。

发布时间: 2/6/2025

查看原文

scBIT：将单细胞转录组数据集成到基于fMRI的阿尔茨海默病诊断预测中

作者: Yu-An Huang, Yao Hu, Yue-Chao Li, Xiyue Cao, Xinyuan Li, Kay Chen Tan, Zhu-Hong You, Zhi-An Huang

arXiv:2502.02630v1 交叉公告类型：scBIT 摘要：功能性磁共振成像(fMRI)和单细胞转录组学在阿尔茨海默病(AD)研究中至关重要，分别提供了神经功能和分子机制的独特见解。然而，将这些互补的模态进行整合仍然很少被探索。在这里，我们介绍了一种新的方法scBIT，通过结合fMRI和单核RNA(snRNA)来增强AD预测。scBIT利用snRNA作为辅助模态，大幅提升了基于fMRI的预测模型，并提供了全面的可解释性。它采用采样策略将snRNA数据分割为细胞类型特异性的基因网络，并利用自解释的图神经网络提取关键子图。此外，我们使用人口统计学和遗传学相似性来跨个体配对snRNA和fMRI数据，从而实现稳健的跨模态学习。广泛的实验验证了scBIT在揭示精细的大脑区域与基因关联和增强诊断预测准确性方面的有效性。通过将脑成像基因组学推进到单细胞水平，scBIT为AD研究中的生物标志物发现提供了新的视角。实验结果表明，在scBIT模型中整合snRNA数据显著提高了准确度，二分类的准确性提高了3.39%，五分类的准确性提高了26.59%。代码使用Python实现，并已在GitHub (https://github.com/77YQ77/scBIT)和Zenodo (https://zenodo.org/records/11599030)上发布，附有详细的说明。

发布时间: 2/6/2025

查看原文

基于细胞类型注释的非空间单细胞RNA测序数据的肿瘤微环境图结构学习

作者: Yu-An Huang, Yue-Chao Li, Hai-Ru You, Jie Pan, Xiyue Cao, Xinyuan Li, Zhi-An Huang, Zhu-Hong You

arXiv:2502.02629v1 宣传类型: cross 摘要：通过单细胞RNA测序（scRNA-seq）探索肿瘤微环境（TME）中的细胞异质性对于理解癌症进展和治疗反应至关重要。然而，当前的scRNA-seq方法缺乏空间上下文，依赖于不完整的配体-受体相互作用（LRIs）数据集，从而限制了准确的细胞类型注释和细胞间通信（CCC）推断。本研究使用一种新型图神经网络（GNN）模型来增强细胞类型预测和细胞间交互分析，解决了这些挑战。本研究使用了一个包含19名患者共49,020个细胞的 datasets，涉及三种癌症类型：白血病、侵袭性乳腺癌和结直肠癌。提出的scGSL模型显示出了稳健的性能，所有数据集的平均准确率为84.83%，精确率为86.23%，召回率为81.51%，F1分为80.92%。这些指标代表了对现有方法的显著改进，后者通常表现出较低的性能指标。此外，通过回顾现有关于TME内基因相互作用的文献，scGSL模型在无监督的情况下稳健地识别了具有生物学意义的基因相互作用，这些基因相互作用在各种癌症的关键基因对中具有显著的表达差异。本文使用的源代码和数据可以在 https://github.com/LiYuechao1998/scGSL 找到。

发布时间: 2/6/2025

查看原文