arXiv 论文列表

基于小波驱动的能量流的视频变分自编码器增强模型（WF-VAE）：用于潜在视频扩散模型

作者: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

视频变分自编码器 (VAE) 将视频编码到低维潜在空间中，成为大多数潜在视频扩散模型 (LVDM) 的关键组成部分，以降低模型训练成本。然而，随着生成视频的分辨率和时长增加，视频 VAE 的编码成本成为训练 LVDM 的瓶颈。此外，大多数 LVDM 采用的分块推理方法在处理长视频时可能导致潜在空间的不连续性。解决计算瓶颈的关键在于将视频分解成不同的组件并有效地编码关键信息。小波变换可以将视频分解成多个频域组件并显著提高效率，因此我们提出了小波流 VAE (WF-VAE)，这是一种利用多级小波变换促进低频能量流入潜在表示的自编码器。此外，我们引入了一种称为因果缓存的方法，该方法在分块推理过程中保持潜在空间的完整性。与最先进的视频 VAE 相比，WF-VAE 在 PSNR 和 LPIPS 指标上都表现出优越的性能，实现了 2 倍更高的吞吐量和 4 倍更低的内存消耗，同时保持了具有竞争力的重建质量。我们的代码和模型可在 https://github.com/PKU-YuanGroup/WF-VAE 获取。

发布时间: 11/27/2024

查看原文

机器人端到端学习的空间视觉感知

作者: Travis Davies, Jiahuan Yan, Xiang Chen, Yu Tian, Yueting Zhuang, Yiqi Huang, Luhui Hu

近年来，模仿学习的进步在机器人控制和具身智能方面展现出巨大的潜力。然而，在不同的安装摄像机观测结果中实现鲁棒的泛化仍然是一个关键挑战。本文介绍了一个基于视频的空间感知框架，该框架利用3D空间表示来解决环境变化问题，重点是处理光照变化。我们的方法将一种新颖的图像增强技术AugBlender与在互联网规模数据上训练的最新单目深度估计模型相结合。这些组件共同构成一个旨在增强动态场景中鲁棒性和适应性的凝聚力系统。我们的结果表明，我们的方法显著提高了各种相机曝光下的成功率，而之前的模型则会出现性能崩溃。我们的研究结果突出了基于视频的空间感知模型在提高端到端机器人学习鲁棒性方面的潜力，为具身智能的可扩展、低成本解决方案铺平了道路。

发布时间: 11/27/2024

查看原文

基于稀疏测量的低成本物理混合机器学习数据预测模型：LC-SVD-DLinear

作者: Ashton Hetherington, Javier L\'opez Leon\'es, Soledad Le Clainche

本文介绍了一种新颖的方法，该方法将奇异值分解 (SVD) 与浅层线性神经网络相结合，用于预测高分辨率流体力学数据。该方法名为 LC-SVD-DLinear，它结合了低成本的奇异值分解 (LC-SVD) 变体和 DLinear 架构，该架构将输入特征（特别是时间系数）分解为趋势和季节性成分，使浅层神经网络能够捕捉时间数据的非线性动力学。该方法使用欠分辨数据，这些数据可以直接输入混合模型，也可以使用该方法提供的两种不同的技术从高分辨率数据降采样。使用欠分辨数据有助于降低整体计算成本。此外，我们还提出了一种该方法的变体 LC-HOSVD-DLinear，它将高阶奇异值分解 (LC-HOSVD) 算法的低成本版本与 DLinear 网络相结合，专为高阶数据而设计。这些方法已使用两个数据集进行了验证：第一个是圆柱绕流三维流动的数值模拟（雷诺数 Re = 220）；第二个是雷诺数 Re = 2600 下圆柱绕流湍流的实验数据集。这两个数据集的结合证明了该方法的稳健性。预测和重建结果通过各种误差指标（包括不确定性量化）进行评估。本文中开发的工作将包含在 ModelFLOWs-app 的下一个版本中。

发布时间: 11/27/2024

查看原文

图神经网络中缓解过度压缩和过度平滑的重连技术综述

作者: Hugo Attali, Davide Buscaldi, Nathalie Pernelle

图神经网络(GNN)是学习图结构数据的强大工具，但其有效性常常受到两个关键挑战的限制：信息过压缩，即来自远处节点的信息过度压缩导致大量信息丢失；以及信息过度平滑，即重复的消息传递迭代使节点表示趋于同质化，模糊了有意义的差异。这些问题与底层图结构内在相关，阻碍了信息流动并限制了GNN的表达能力。在本综述中，我们研究了图重连技术，这是一类旨在通过修改图拓扑结构来增强信息扩散以解决这些结构瓶颈的方法。我们对最先进的重连方法进行了全面回顾，深入探讨了它们的理论基础、实际实现和性能权衡。

发布时间: 11/27/2024

查看原文

CLOVER：基于正交向量约束学习以消除冗余

作者: Fanxu Meng, Muhan Zhang

为了使训练良好的大型模型适应下游任务，我们提出了一种方法，通过利用其原始潜在空间的基向量线性组合来约束学习过程。这种方法确保了稳定的训练，同时不会影响模型的能力。传统上，从矩阵构建正交基需要转移矩阵，这会显著增加参数和特征图的存储和计算开销。在本文中，我们针对Q、K、V和O矩阵引入了吸收和分解方法，使得无需转移矩阵即可实现它们的正交化。此外，吸收分解操作消除了冗余向量，在无需额外训练的情况下，将Whisper-large-v3的编码器注意力参数减少了46.42%。为了实现参数高效且稳定的微调，我们对Q、K、V和O进行了正交化，并且只对奇异值进行了微调，从而在将变化限制在原始潜在空间的同时实现了高效的自适应。当在八个常识推理数据集上对LLaMA-2-7B进行微调时，我们的方法比LoRA提高了5.4%，比DoRA提高了4.4%。

发布时间: 11/27/2024

查看原文

大型语言模型能否胜任知识图谱构建中的图评价任务？

作者: Haoyu Huang, Chong Chen, Conghui He, Yang Li, Jiawei Jiang, Wentao Zhang

在现实场景中，从信息检索 (IR) 系统获得的大部分数据都是非结构化的。将自然语言句子转换为结构化的知识图谱 (KGs) 仍然是一个关键挑战。构建的 KGs 的质量也可能影响某些依赖 KG 的领域（如 GraphRAG 系统和推荐系统）的性能。最近，大型语言模型 (LLMs) 在解决各种自然语言处理任务方面展现出了令人印象深刻的能力。然而，利用 LLMs 来解决生成结构化 KGs 的任务仍然存在挑战。我们已经确定了现有 KG 构建方法的三个局限性。(1) 现实世界文档中存在大量信息和过多的噪声，这可能导致提取混乱的信息。(2) 原生 LLMs 难以有效地从某些特定领域的文档中提取准确的知识。(3) 在将 LLMs 直接用作构建 KGs 的无监督方法时，幻觉现象不容忽视。本文提出了一种知识图谱构建框架 GraphJudger 来应对上述挑战。我们在方法中引入了三个创新模块，分别是：以实体为中心的迭代文本去噪、知识感知指令微调和图判断。我们试图利用 LLMs 的能力使其充当图判断器，这种能力优于其仅作为 KG 构建问题预测器的角色。在两个通用文本-图对数据集和一个特定领域文本-图对数据集上进行的实验表明，与基线方法相比，该方法具有优越的性能。我们提出的方法的代码可在 https://github.com/hhy-huang/GraphJudger 获取。

发布时间: 11/27/2024

查看原文

公平与性能兼顾：数据去偏见是全部所需

作者: Junhua Liu, Wendy Wan Yee Hui, Roy Ka-Wei Lee, Kwan Hui Lim

机器学习（ML）预测和人工决策中的公平性至关重要，ML模型容易受到算法和数据偏差的影响，而人工决策则受主观性和认知偏差的影响。本研究使用包含 870 个个人资料的真实世界大学录取数据集，利用 XGB、Bi-LSTM 和 KNN 三种 ML 模型，调查了公平性问题。文本特征使用 BERT 嵌入进行编码。对于个体公平性，我们使用一致性评分评估了具有不同背景的专家和 ML 模型之间的决策一致性。结果表明，在公平性方面，ML 模型比人工决策高出 14.08% 到 18.79%。对于群体公平性，我们提出了一种性别去偏见流程，并证明了其在去除性别特异性语言而不影响预测性能方面的有效性。去偏见后，所有模型都保持或提高了其分类精度，验证了公平性和性能可以共存的假设。我们的研究结果突出了 ML 在提高录取公平性同时保持高精度的潜力，倡导将人工判断和 ML 模型相结合的混合方法。

发布时间: 11/27/2024

查看原文

知识感知的进化图神经网络架构搜索

作者: Chao Wang, Jiaxuan Zhao, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Shuyuan Yang

图神经网络架构搜索 (GNAS) 可以为特定图任务或数据集定制高性能图神经网络架构。然而，现有的 GNAS 方法从零知识状态开始搜索架构，忽略了可能提高搜索效率的先验知识。现有的知识库（例如 NAS-Bench-Graph）包含许多丰富的架构及其多个性能指标，例如准确率 (#Acc) 和参数数量 (#Params)。本研究提出利用这种先验知识来加速对名为知识感知进化 GNAS (KEGNAS) 的新图数据集的多目标进化搜索。KEGNAS 利用知识库一次性训练知识模型和深度多输出高斯过程 (DMOGP)，这使得在短短几秒的 GPU 时间内就能生成和评估迁移架构。知识模型首先建立数据集到架构的映射，这可以快速生成新数据集的候选迁移架构。随后，设计具有架构和数据集编码的 DMOGP 来预测候选迁移架构在新数据集上的多个性能指标。根据预测的指标，选择非支配的候选迁移架构来预热启动多目标进化算法，从而优化新数据集上的 #Acc 和 #Params。在 NAS-Bench-Graph 和五个真实世界数据集上的实证研究表明，KEGNAS 可以快速生成顶级性能的架构，其准确率比先进的进化基线高 4.27%，比先进的可微基线高 11.54%。此外，消融研究表明，利用先验知识可以显著提高搜索性能。

发布时间: 11/27/2024

查看原文

不同标准下的不同偏差：基于事实的方法评估大型语言模型中的偏差

作者: Changgeon Ko, Jisu Shin, Hoyun Song, Jeongyeon Seo, Jong C. Park

大型语言模型（LLM）通常反映现实世界中的偏见，因此人们努力减轻这些影响并使模型变得无偏见。实现这一目标需要为无偏状态定义明确的标准，任何偏离这些标准的行为都被认为是有偏见的。一些研究将无偏状态定义为对不同人口群体进行平等对待，旨在使LLM的输出保持平衡。然而，对平等和多元化重要性的不同观点使得建立普遍标准极具挑战性。或者，其他方法建议使用基于事实的标准进行更一致和客观的评估，尽管这些方法尚未完全应用于LLM偏见评估。因此，需要一个具有客观标准的指标，提供不同于基于平等方法的视角。基于这一需求，我们引入了一种新的指标，使用基于事实的标准和现实世界统计数据来评估偏见。在本文中，我们进行了一项人类调查，证明当LLM输出与现实世界的人口分布密切吻合时，人们往往对其评价更高。使用我们提出的指标评估各种LLM表明，模型偏见取决于所使用的标准，这突显了多视角评估的必要性。

发布时间: 11/27/2024

查看原文

PIM-AI：一种用于高效大语言模型推理的新型架构

作者: Cristobal Ortega, Yann Falevoz, Renaud Ayrignac

大型语言模型 (LLM) 因其先进的语言理解和生成能力已成为各种应用中的重要组成部分。然而，它们的计算和内存需求对传统的硬件架构提出了重大挑战。内存计算 (PIM) 将计算单元直接集成到内存芯片中，为 LLM 推理提供了诸多优势，包括减少数据传输瓶颈和提高能效。本文介绍了 PIM-AI，这是一种新颖的 DDR5/LPDDR5 PIM 架构，旨在无需修改内存控制器或 DDR/LPDDR 内存 PHY 即可进行 LLM 推理。我们开发了一个模拟器来评估 PIM-AI 在各种场景下的性能，并证明其相较于传统架构的显著优势。在云端场景中，根据所使用的 LLM 模型的不同，PIM-AI 将每秒查询数的三年总拥有成本 (TCO) 与最先进的 GPU 相比降低了高达 6.94 倍。在移动场景中，与最先进的移动 SoC 相比，PIM-AI 将每标记的能量消耗降低了 10 到 20 倍，从而使每秒查询数增加了 25% 到 45%，每查询的能量消耗降低了 6.9 倍到 13.4 倍，延长了电池续航时间，并实现了每次充电更多的推理次数。这些结果突出了 PIM-AI 彻底改变 LLM 部署，使其更高效、更可扩展和更可持续的潜力。

发布时间: 11/27/2024

查看原文