arXiv 论文列表

作者: Manh Luong, Khai Nguyen, Dinh Phung, Gholamreza Haffari, Lizhen Qu

arXiv:2502.05435v1 宣告类型: 跨领域摘要：在音频字幕中，教师强迫训练通常会导致由于训练和推断不匹配而导致的曝光偏差。先前的工作提出了对比方法来处理字幕退化问题。然而，对比方法在测量不同音频和语言模态的相似性时忽略了时间信息，导致性能不佳。在本文中，我们通过引入带有旋转位置嵌入的无偏切片Wasserstein RBF（USW-RBF）核来开发时间相似度得分，以考虑不同模态之间的时间信息。与传统的切片Wasserstein RBF核不同，我们可以通过蒙特卡洛估计形成USW-RBF核的无偏估计。因此，它非常适合于随机梯度优化算法，并且其近似误差以参数率 $\mathcal{O}(L^{-1/2})$ 随蒙特卡洛样本数量 $L$ 的增加而减少。此外，我们提出了一种基于无偏切片Wasserstein核的音频字幕框架，并结合了随机解码方法，以减轻生成过程中字幕退化的问题。我们在两个数据集AudioCaps和Clotho上进行了广泛的定量和定性实验，以证明该框架生成高质量音频字幕的能力。实验结果表明，我们的框架能够增加字幕长度、词汇多样性，并提高文本到音频的自我检索准确性。

发布时间: 2/11/2025

查看原文

APE: 通过自适应并行编码实现更快更长上下文增强生成

作者: Xinyu Yang, Tianqi Chen, Beidi Chen

arXiv:2502.05431v1 Announce Type: cross 摘要：上下文增强生成（CAG）技术，包括RAG和ICL，需要高效地结合多个上下文来生成用户查询的响应。直接将这些上下文作为序列输入会因每次请求都需要重新编码合并的选择而引入显著的计算负担。为了解决这一问题，我们探索了并行编码的潜力，以独立预计算和缓存每个上下文的KV状态。这种方法允许在推理过程中直接加载缓存状态，同时通过上下文间的定位重用容纳更多上下文。然而，由于注意力分布对齐不当，直接应用并行编码会导致显著的性能下降。为了实现有效的和高效的CAG，我们提出了自适应并行编码（APE），该方法引入了共享前缀、注意力温度和比例因子，以使并行编码的注意力分布与序列编码对齐。对RAG和ICL任务的结果表明，APE可以在使用相同输入的同时保持98%和93%的序列编码性能，同时并行编码分别只能达到3.6%和7.9%的性能。此外，APE还可以扩展到多次生成（many-shot）的CAG中，有效地并行编码数百个上下文。效率评估表明，APE可以通过减少28倍的预填充时间，从而在长度为128K的上下文中实现端到端4.5倍的加速。

发布时间: 2/11/2025

查看原文

SAMGPT：无文本的图基础模型用于多领域预训练和跨域适应

作者: Xingtong Yu, Zechuan Gong, Chang Zhou, Yuan Fang, Hui Zhang

arXiv:2502.05424v1 宣告类型: cross 摘要: 图能够 modeling 许多在线服务中的相互关联实体，支持范围广泛的应用程序。这引发了一个重要的问题: 我们如何在多个源域上训练图基础模型并在未见过的目标域上进行适应？一个主要障碍是来自不同域的图往往表现出不同的特性。一些研究利用大型语言模型根据与图关联的文本描述来对齐多个域，这限制了它们在无文本图中的应用。对于无文本的图，一些最近的工作尝试在域间对齐不同的特征分布，但通常忽视了结构性差异。在这项工作中，我们提出了一种新的结构对齐框架，用于无文本的多域图预训练和跨域适应 (SAMGPT)。该框架旨在学习源自多个源域的图中的多域知识，然后可以根据未见过的目标域进行适应。具体而言，我们在预训练阶段引入了一组结构标记，以在不同源域之间协调基于结构的聚合。对于跨域适应，我们设计了一种双重提示机制，即整体提示和具体提示，分别适应统一的多域结构知识和细粒度的、特定于域的信息，以适应目标域。最后，我们在七个公开数据集上进行了全面实验，以评估和分析 SAMGPT 的效果。

发布时间: 2/11/2025

查看原文

Show-o Turbo: 面向加速的统一多模态理解和生成

作者: Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng

arXiv:2502.05415v1 宣传类型：交叉摘要：在构建统一的多模态理解和生成模型方面，已经产生了越来越多的研究兴趣，其中 Show-o 站在显著的代表地位，展现出在文本到图像和图像到文本生成方面的巨大潜力。Show-o 的推断过程涉及逐步去噪图像标记和自回归解码文本标记，因此不幸的是，这一过程在两个方面都存在效率问题。本文介绍了 Show-o Turbo 以弥补这一差距。我们首先基于 Show-o 中文本标记的并行解码，为图像和文本的生成确定了一个统一的去噪视角。然后，我们提议将一致性蒸馏（CD），一种缩短扩散模型去噪过程的有效方法，扩展到 Show-o 的多模态去噪轨迹中。我们引入了一条轨迹分割策略和逐步学习过程，以提高训练收敛性。从实验上看，在文本到图像生成中，无需使用无条件引导（CFG），Show-o Turbo 在 4 步采样步骤中获得了 0.625 的 GenEval 分数，优于原始 Show-o 的 8 步和 CFG；在图像到文本生成中，Show-o Turbo 提供了 1.5 倍的加速性能，同时未显著牺牲性能。代码可在 https://github.com/zhijie-group/Show-o-Turbo 获取。

发布时间: 2/11/2025

查看原文

基于视觉的闭环仿真用于海洋环境中单目UAV位姿估计

作者: Maneesha Wickramasuriya, Beomyeol Yu, Taeyoung Lee, Murray Snyder

arXiv:2502.05409v1 宣称类型: 交叉摘要：本文提出了一种用于海洋环境中的无人机视距单目姿态估计的视觉循环仿真环境。最近，一种具有变换器架构的深度神经网络已被成功训练，用于估算无人机相对于研究船甲板的姿态，克服了基于GPS方法的多个限制。然而，在实际海洋环境中验证深度姿态估计方案面临巨大挑战，因为研究船的数量有限且相关操作成本高昂。为了解决这些问题，我们提出了一种基于照片写实的3D虚拟环境，利用最新的高斯散射技术，这是一种通过将3D空间中的图像像素建模为3D空间中的高斯分布来表示3D场景的新技术，可以从多个视角创建轻量级、高质量的视觉模型。该方法允许创建一个结合了现场采集的多张真实世界图像的虚拟环境。由此产生的模拟环境可以在室内测试飞行机动，同时验证飞行软件、硬件以及深度单目姿态估计方案的所有方面。该方法为测试和验证船载无人机的自主飞行提供了一种经济高效的解决方案，特别专注于基于视觉的控制和估计算法。

发布时间: 2/11/2025

查看原文

具有反馈的稀疏超置特征学习的复杂性

作者: Akash Kumar

arXiv:2502.05407v1 类别: cross 摘要: 深度网络的成功主要归因于它们在表示空间内捕捉潜在特征的能力。在这项工作中，我们探讨了是否可以通过代理（如大型语言模型（LLM））的形式进行反馈，例如相对的 \textit{三元组比较}，来高效地检索模型中学习到的特征。这些特征可能代表各种构建块，包括大型语言模型中的词典或马氏距离协方差矩阵的组成部分。我们分析了在稀疏环境中学习特征矩阵的反馈复杂性。我们的结果显示，在代理可以构建激活的情况下，存在紧密的边界；当代理的反馈仅限于分布信息时，结果显示了稀疏场景下的强大边界。我们通过两个不同的应用领域的实验验证了我们的理论发现：从递归特征机训练的模型中恢复特征以及从大规模语言模型中训练的稀疏自编码器中提取词典。

发布时间: 2/11/2025

查看原文

基于颜色网格的卷积深度颜色化图像压缩方法

作者: Ian Tassin, Kristen Goebel, Brittany Lasher

arXiv:2502.05402v1 类型: cross 摘要: 图像压缩优化技术的探索一直是学术界内外持续关注的话题。未来该领域改进的一个有前景的方法是图像着色，因为图像着色算法可以减少需要存储的颜色数据量。我们的工作集中在优化基于颜色网格的方法，以在卷积着色网络架构下全面保留图像着色信息，目标是图像压缩。更广泛地说，我们使用卷积神经网络进行图像重新着色，目的是在仍然能够忠实重新着色图像的同时，尽量减少存储的颜色信息量。我们的结果产生了有希望的图像压缩比，同时仍然实现了高CSIM值，成功地重新着色了图像。

发布时间: 2/11/2025

查看原文

从粗到细结构感知的艺术风格迁移

作者: Kunxiao Liu, Guowu Yuan, Hao Wu, Wenhua Qian

arXiv:2502.05387v1 宣布类型: cross 摘要: 艺术风格转移旨在使用风格图像和内容图像合成一个目标图像，在保留风格图像相同的艺术表达的同时，保留内容图像的基本内容。近年来提出的一些风格转移方法存在一个共同问题，即它们简单地将风格图像的纹理和颜色转移到内容图像的整体结构中。结果，内容图像的局部结构与风格图像的局部结构不相似。在本文中，我们提出了一种有效的方法，可以用于同时融合局部风格结构到局部内容结构中并转移风格模式。在我们的方法中，首先使用粗网络在低分辨率下重建不同级别的粗样式特征，在粗网络中粗略转移风格色彩分布，并将内容结构与风格结构结合。然后，使用具有三个结构选择性融合（SSF）模块的细网络采用重建特征和内容特征，生成高分辨率、结构感知的高质量样式化图像。通过生成吸引人的高质量样式化结果并与一些最先进的风格转移方法进行比较，证明了我们方法的有效性。

发布时间: 2/11/2025

查看原文

解耦电子问题需要全部注意力吗？

作者: Max Geier, Khachatur Nazaryan, Timothy Zaklama, Liang Fu

arXiv:2502.05383v1 Announce Type: 交叉摘要：注意力机制通过学习对象之间的关系，已经彻底改变了人工智能研究。在本文中，我们探讨如何使用从大规模参数自我注意神经网络构建的许多体波函数近似来解决固体中的相互作用电子问题。通过对一种莫雷量子材料进行系统的神经网络变分蒙特卡洛研究，我们证明了自我注意近似提供了一个准确、高效且无偏的解决方案。此外，我们的数值研究发现，所需的变分参数数量大致与电子数量的平方成比例，这为高效的大型模拟开辟了道路。

发布时间: 2/11/2025

查看原文

fMoE：大规模混合专家模型中细粒度的专家卸载

作者: Hanfei Yu, Xingqi Cui, Hong Zhang, Hao Wang, Hao Wang

arXiv:2502.05370v1 类型：交叉摘要：大规模语言模型（LLMs）在内容生成、搜索和推荐以及AI辅助操作等各种应用中取得了巨大的成功。为了降低训练成本，专家混排（MoE）架构已成为现代LLMs的一个流行基础结构。然而，尽管存在这些优点，基于MoE的LLMs在提供服务时由于专家稀疏激活而导致严重的内存效率低下。最近的研究提出了将未激活的专家从GPU内存卸载到CPU内存，以提高MoE模型提供的服务效率。然而，由于粗粒度的设计，它们要么引入了高推理延迟，要么引入了高模型内存占用。为了在MoE提供服务中平衡延迟和内存之间的trade-off，我们提出了fMoE，这是一个细粒度专家卸载系统，能够实现低推理延迟和内存效率。我们设计fMoE从MoE模型中提取细粒度的专家选择模式，以及从输入提示中提取语义提示，以有效地指导专家预取、缓存和卸载决策。fMoE基于HuggingFace Transformers原型，并部署在一个六块GPU的测试系统上。实验证明，fMoE比最先进的解决方案将推理延迟降低了47%，并提高了36%的专家命中率。

发布时间: 2/11/2025

查看原文