arXiv:2504.09225v1 类型:交叉
摘要:本文介绍了AMNet,这是一种旨在通过结合短语结构注释和局部卷积模块来提高普通话语音合成性能的声学模型网络。AMNet 基于 FastSpeech 2 架构,同时解决了局部上下文建模的挑战,这对于捕捉复杂的语音特征(如停顿、重音和语调)至关重要。通过将短语结构解析器嵌入模型中,并引入局部卷积模块,AMNet 提高了模型对局部信息的敏感度。此外,AMNet 将声调特征与音素分离,为声调建模提供了明确的指导,从而提高了声调的精度和发音质量。实验结果表明,在主观和客观评估中,AMNet 的性能优于基础模型。所提出的模型在平均意见评分 (MOS)、较低的梅尔频谱失真 (MCD) 以及改进的基频拟合 \(F0 (R^2)\) 方面表现优异,证实了其生成高质量、自然且富有表现力的普通话语音的能力。
arXiv:2504.09223v1 交叉通知类型
摘要:提高大型语言模型(LLMs)推理的效率是研究的关键领域。后训练量化(PTQ)是一种流行的技术,但在低位级水平下往往面临挑战,特别是在下游任务中。量化感知训练(QAT)能够缓解这一问题,但需要显着更多的计算资源。为了解决这个问题,我们引入了分解低秩量化感知训练(DL-QAT),该方法结合了QAT的优点,同时仅训练少于1%的总参数。具体而言,我们引入了一个组特定的量化幅度来调整每个量化组的总体规模。在每个量化组内,我们使用LoRA矩阵来更新量化空间中的权重大小和方向。我们在LLaMA和LLaMA2模型家族中验证了我们方法的有效性。结果表明,与基线方法相比,在不同的量化粒度下都取得了显著改进。例如,对于LLaMA-7B,我们的方法在3比特LLaMA-7B模型上实现了在MMLU上的4.2%的改进,超越了之前的最先进方法。此外,我们在预训练模型上的量化结果也超越了之前的QAT方法,展示了我们方法的优越性能和效率。
arXiv:2504.09210v1 通知类型: 交叉
摘要: 公平性一直是图神经网络(GNNs)中的一个重大挑战,因为度偏差通常会导致不同度节点的预测性能不平等。现有的GNN模型主要关注预测准确性,经常忽视不同度组之间的公平性。为了解决这个问题,我们提出了一种新颖的GNN框架,名为Fairness-Aware Asymmetric Contrastive Ensemble(FairACE),它结合不对称对比学习和对抗训练以提高度公平性。FairACE 捕获一跳局部邻居信息和两跳单形相似性,以创建更公平的节点表示,并采用度公平调节器在高度节点和低度节点之间平衡性能。在模型训练过程中,我们提出了一个新的组平衡公平损失,以最小化不同度组之间的分类差异。此外,我们还提出了一种新的公平性评估指标,准确性分布差距(ADG),它可以定量评估并确保不同基于度的节点组之间的公平性能。在对合成数据集和真实世界数据集进行的实验结果表明,FairACE 在提高度公平性指标方面表现出显著的提升,同时在与现有最佳GNN模型的准确性方面保持竞争力。
arXiv:2504.09203v1 交叉类型:cross
摘要:在遥感领域,超越预定义类别的图像分割是一个关键挑战,因为在推理过程中往往会涌现出新的未知类别。开放词汇图像分割方法在传统监督分割模型中解决了这些泛化问题,同时减少了对大量精确像素标注的依赖,而这些标注既昂贵又费时。大多数开放词汇分割(OVS)方法都是为自然图像设计的,但在处理因比例变化、方向变化和复杂场景组成的遥感数据时表现出色。这需要开发专门针对遥感数据的OVS方法。在此背景下,我们提出了一种名为AerOSeg的新型OVS方法,专门针对遥感数据。首先,我们利用输入图像的多个旋转版本和领域特定的提示计算稳健的图像-文本相关特征。然后,这些特征通过空间细化和类别细化块进行细化。受到Segment Anything Model (SAM) 在多个领域的成功应用的启发,我们利用SAM特征指导相关特征的空间细化。此外,我们介绍了一种语义反投影模块和损失,以确保在分割管线中无缝传播SAM的语义信息。最后,我们使用多尺度注意力感知解码器增强细化后的相关特征,生成最终的分割图。我们使用三个基准遥感数据集:iSAID、DLRSD 和 OpenEarthMap,验证了我们的SAM指导下的开放词汇遥感分割模型。我们的模型优于现有的开放词汇分割方法,在平均 h-mIoU 上取得了2.54%的提升。
arXiv:2504.09195v1 Announce Type: cross
摘要:基于文本查询跟踪多个对象是一项具有挑战性的任务,需要在帧之间链接语言理解和对象关联。以往的工作通常以端到端的方式训练整个过程,或者将额外的指引用文本模块集成到多对象跟踪器中,但这两者都需要监督训练,并且在处理开放集查询时可能难以泛化。在本文中,我们提出了一种新颖的零样本指引用多对象跟踪框架——ReferGPT。我们提供了一个具有空间知识的多模态大语言模型(MLLM),使其能够生成具有3D意识的描述。这增强了其描述能力,并且在无需训练的情况下支持更灵活的指引用词汇。我们还提出了一种稳健的查询匹配策略,利用基于CLIP的语义编码和模糊匹配,将MLLM生成的描述与用户查询关联起来。在Refer-KITTI、Refer-KITTIv2和Refer-KITTI+上的广泛实验表明,ReferGPT在性能上与训练后的模型相当,展示了其在自主驾驶中的稳健性和零样本能力。代码已发布在https://github.com/Tzoulio/ReferGPT
arXiv:2504.09185v1 宣告类型: cross
摘要: 长序列预测是时间序列预测中的一个关键挑战。虽然基于Mamba的模型因其序列选择能力而表现出强劲的性能,但它们仍然在注重关键时间步和完全消除噪声方面存在不足,这是由于其选择能力有限所致。为了解决这个问题,我们引入了重复对比学习(RCL),这是一种旨在增强Mamba选择能力的令牌级别对比预训练框架。RCL 预训练单个Mamba块以加强其选择能力,然后将这些预训练参数用于各种骨干模型的Mamba块初始化,从而提高它们的时间预测性能。RCL 通过高斯噪声进行序列增强,并应用跨序列和同序列对比学习,帮助Mamba模块优先处理信息丰富的时间步,忽略噪声时间步。广泛的实验表明,RCL 一致地提高了骨干模型的性能,超越了现有方法,并取得了最先进的结果。此外,我们提出了两种衡量Mamba选择能力的指标,为RCL 所带来的改进提供了理论、定性和定量的证据。
arXiv:2504.09184v1 类别: cross
摘要: 我们介绍了一种名为 SimpleStories 的大型合成故事数据集,使用简单语言,包含200万条故事,每种语言各有100万条,分别用英语和日语编写。我们的方法通过在多个抽象层次上对提示进行参数化,允许对故事特征进行系统控制,以确保广泛的句法学和语义多样性。基于并解决了 TinyStories 数据集的局限性,我们的方法证明,在大规模合成文本生成中,简洁性和多样性是能够同时实现的。
arXiv:2504.09179v1 共享类型: 交叉
摘要:在功能磁共振成像(fMRI)的开放数据集中,数据的异质性通常归因于扫描程序差异、混淆效应的存在以及多个站点之间人群的多样性等多个因素。这些因素导致表示学习的有效性减弱,进而影响后续分类程序的整体效能。为了解决这些问题,我们提出了一种新的多站点对抗学习网络(MSalNET)来检测基于fMRI的精神疾病。首先,引入了一个表示学习模块,包含节点信息组装(NIA)机制,以更好地从功能性连接(FC)中提取特征。该机制在水平和垂直方向上收集边的信息,有效组装节点信息。其次,为了在站点间推广特征,我们提出了一种站点级别特征提取模块,可以从个体FC数据中学习,无需额外的先验信息。最后,提出了一种对抗学习网络,作为一种在个体分类任务和站点回归任务之间取得平衡的方法,并引入了一种新的损失函数。所提出的方法在两个多站点fMRI数据集,即自闭症脑成像数据交换(ABIDE)和ADHD-200上进行了评估。结果显示,所提出的方法在ABIDE和ADHD-200数据集中的准确率分别为75.56和68.92,优于其他相关算法。此外,站点回归的结果表明,从数据驱动的角度来看,所提出的方法减少了站点间的波动性。通过NIA揭示的最具区分性的脑区与统计发现一致,部分揭示了深度学习的“黑匣子”。
arXiv:2504.09164v1 交叉类型: cross
摘要:鉴于生成型人工智能作为创建多语言内容并绕过机器翻译和传统翻译方法的工具使用日益增多,本研究探讨了语言训练个体辨别机器生成输出与人类撰写的文本(HT)的能力。在短暂的培训课程中,这些培训课程涵盖了合成文本(ST)中通常发现的文本异常现象后,二十名研究生翻译学生分析了意大利散文的片段,并分配了可能性评分以表明他们认为是人类撰写的还是AI生成的(ChatGPT-4o)。结果显示,平均而言,学生们在区分HT和ST方面遇到了困难,只有两名参与者取得了显著的准确性。更深入的分析表明,学生们在HT和ST中都识别出相同的文本异常现象,尽管诸如低突发性和自相矛盾等特征更常与ST相关联。这些发现表明,需要改进预备培训。此外,该研究提出了一个关于是否需要对合成文本进行编辑以使其听起来更接近人类的问题,并建议进一步研究以确定AI生成的文本是否已经足够自然,不需要进一步的改进。
arXiv:2504.09101v1 生成类型:跨领域
摘要:在现代空域交通管理中,生成合成飞行轨迹已经成为了应对数据稀缺性、保护敏感信息以及支持大规模分析的一种有前途的解决方案。本文提出了一种通过适应时间基向量量化变分自编码器(TimeVQVAE)的方法来进行轨迹合成的新方法。我们的方法利用了时频域处理、向量量化和基于变换器的先验知识来捕捉飞行数据中的全局和局部动态。通过离散化潜在空间并结合变换器先验知识,模型学习了长期的空间时间和依赖性,并保持了整个飞行路径的一致性。我们通过使用一系列详尽的质量、统计和分布度量标准,以及在开源空域交通模拟器中进行的可飞行性评估,来评估适应后的TimeVQVAE。结果表明,TimeVQVAE在时间卷积变分自编码器基准模型上表现出色,生成的合成轨迹在空间精度、时间一致性和统计属性方面与现实中的飞行数据相匹配。此外,基于模拟器的评估表明,大多数生成的轨迹保持了操作可行性,但是偶尔出现的异常值可能揭示了需要额外的领域特定约束的需求。总体而言,我们的研究结果强调了多尺度表示学习对于捕捉复杂飞行行为的重要性,并展示了TimeVQVAE在为下游任务(如模型训练、空域设计和空域预测)生成代表性合成轨迹方面的潜力。