arXiv 论文列表

作者: Jianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang

arXiv:2407.00088v2 宣告类型: replace-cross 摘要：在边缘设备上部署大型语言模型（LLMs）越来越重要，以增强设备上的智能。权重量化是减少边缘设备上LLMs内存占用的关键。然而，低比特LLMs在推理过程中需要低精度权重和高精度激活的混合精度矩阵乘法（mpGEMM），现有的系统缺乏对mpGEMM的原生支持，因此不得不对权重进行去量化以进行高精度计算。这种间接方式会导致显著的推理开销。在本文中，我们提出了T-MAC，一种基于查找表（LUT）的创新方法，用于在CPU上高效进行低比特LLMs（即权重量化后的LLMs）的推理。T-MAC无需去量化即可直接支持mpGEMM，同时减少乘法次数并降低加法次数。具体而言，T-MAC将传统的基于数据类型的操作变为位级别的查找表查找，并实现了统一且可扩展的mpGEMM解决方案。以查找表为基础的内核随着权重位宽线性扩展。在对低比特Llama和BitNet模型进行评估时，与llama.cpp相比，T-MAC的吞吐量提高了4倍，能耗降低了70%。对于BitNet-b1.58-3B，T-MAC在M2-Ultra上使用单核时实现了每秒30个token的生成吞吐量，在八核时实现了每秒71个token的吞吐量，而在较低配置的设备上如Raspberry Pi 5，T-MAC实现了每秒11个token的吞吐量，这远远超过了成人平均阅读速度。T-MAC基于查找表的计算范式为在资源受限的边缘设备上实用化低比特LLMs铺平了道路，而不牺牲计算效率。该系统已在https://github.com/microsoft/T-MAC 开源。

发布时间: 3/26/2025

查看原文

XXLTraffic：扩展并超越测试适配的极长期交通预测

作者: Du Yin, Hao Xue, Arian Prabowo, Shuang Ao, Flora Salim

arXiv:2406.12693v2 宣言类型: replace-cross 摘要：交通预测对于智慧城市和智能交通倡议至关重要，在最近几年中，深度学习在建模复杂的空间-时间模式方面取得了显著进展。然而，当前的公共数据集在反映现实世界场景中不断演变的基础设施、变化的时间分布以及由于传感器故障时间或交通模式变化导致的长时间间隔方面存在局限性。这些局限性不可避免地限制了现有交通预测数据集的实用应用。为了解决这一差距，我们提出了XXLTraffic，这是目前可用的最大公共交通数据集，数据来源于美国洛杉矶和澳大利亚新南威尔士州，并专门收集以支持极长时间预测的研究。我们的基准包括典型的时序预测设置，具有小时和每日聚合的数据，以及新的配置，引入缺口并降低训练大小，以更好地模拟实际约束条件。我们期待新的XXLTraffic将为时间序列和交通预测社区提供新的视角，并提供一个强大的平台，用于开发和评估旨在解决测试适应之外的极长时间预测问题的模型。我们的数据集补充了现有的时空数据资源，并在此领域开启了新的研究方向。

发布时间: 3/26/2025

查看原文

SPA-VL: 一个全面的安全偏好对齐数据集用于视觉语言模型

作者: Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang, Feng Zhao, Tao Gui, Jing Shao

arXiv:2406.12030v3 安全类型: 交叉替换摘要: 视觉语言模型（VLMs）的出现带来了理解多模态信息前所未有的进步。VLMs 中的文本和视觉语义高度复杂且多样化，使得这些模型的安全对齐极具挑战性。此外，由于对 VLMs 安全对齐的研究有限，缺乏大规模、高质量的数据集。为了应对这些限制，我们提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集。在宽度方面，SPA-VL 涵盖了 6 个有害性领域、13 个类别和 53 个子类别，并包含 100,788 个四元组（问题、图像、选定的回答、拒绝的回答）的样本。在深度方面，响应数据来自 12 个开源（例如 QwenVL）和封闭源（例如 Gemini）的 VLMs，以确保多样性。偏好数据的构建完全自动化，实验结果表明，使用 SPA-VL 数据集进行对齐技术训练的模型在无害性和有益性方面展现出显著的进步，同时保持核心能力。作为大规模、高质量和多样化的数据集，SPA-VL 代表了确保 VLMs 实现无害性和有益性的重要里程碑。

发布时间: 3/26/2025

查看原文

TIGeR: 统一文本到图像生成和检索的大规模多模态模型

作者: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua

arXiv:2406.05814v2 Announce Type: replace-cross 摘要：人类如何有效地高效地获取图像一直是 perennial 问题。经典的解决方案是从现有数据库中进行文本到图像检索；然而，受限的数据库通常缺乏创造力。相比之下，最近在文本生成图像方面的突破使生成具有吸引力的和反事实的视觉内容成为可能，但其在合成知识密集型图像方面面临挑战。在这项工作中，我们重新思考文本到图像生成和检索之间的关系，提出了一种用于两项任务的统一框架，即单一大型多模态模型（LMM）。具体而言，我们首先探索 LMM 的固有鉴别能力，并在无需训练的情况下引入了一种高效的生成检索方法，用于文本到图像检索。随后，我们以自回归方式统一生成和检索，并提出了一种自主决策机制，以选择生成图像和检索图像中最佳匹配的一方作为对文本提示的响应。为了标准化统一文本到图像生成和检索的评估，我们构建了 TIGeR-Bench，这是一个涵盖创造性和知识密集型领域的基准。在 TIGeR-Bench 以及两个检索基准，即 Flickr30K 和 MS-COCO 上进行的大量实验表明了我们所提出框架的优势。

发布时间: 3/26/2025

查看原文

理解训练样本对解释的影响

作者: Andr\'e Artelt, Barbara Hammer

arXiv:2406.03012v2 更新类型: 替换-交叉摘要：可解释人工智能（XAI）广泛用于分析人工智能系统的决策机制，例如提供用于补救的反事实解释。当出现意外解释时，用户可能希望了解塑造这些解释的训练数据属性。在数据估值的框架下，已经提出了初步方法来估算数据样本对给定模型的影响。这一过程不仅有助于确定数据的价值，还提供了关于个别、可能噪声或误导性示例如何影响模型的见解，这对于可解释的人工智能至关重要。在此工作中，我们将数据估值的概念应用到模型评估的重要领域，重点关注个别训练样本如何影响模型的内部推理，而不仅仅是预测性能。因此，我们引入了识别塑造给定解释或相关量的训练样本的新型问题，并探讨了计算补救成本的特殊情况。我们提出了一个算法来识别这些有影响力的样本，并在两个案例研究中进行了广泛的实证评估。

发布时间: 3/26/2025

查看原文

使用神经表示动态刺激重新生成图像

作者: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr

arXiv:2406.02659v3 宣告类型: 替换-交叉摘要：虽然计算机视觉模型在静态图像识别方面取得了惊人的进展，但在需要理解复杂动态运动的任务方面，它们仍无法与人类的表现相媲美。特别是在现实世界场景中，具有复杂和动态环境的实体代理面临的情况尤其如此。我们的方法，BrainNRDS（脑-神经动态刺激的表示），利用最先进的视频扩散模型将静态图像表示与动态生成的运动分离，使我们能够利用功能性磁共振成像（fMRI）的大脑活动，对动态视觉刺激引起的人类反应有更深入的理解。相反，我们还证明，关于大脑对运动的表示的信息可以提高人工系统中光流预测的准确性。我们新颖的方法带来了四个主要发现：（1）视觉运动，表现为细粒度的对象级分辨率光流，可以从参与者观看视频刺激时产生的大脑活动解码；（2）视频编码器在预测由视频驱动的大脑活动方面优于基于图像的模型；（3）解码的大脑运动信号使得仅凭视频首帧即可实现逼真的视频复原；（4）我们扩展了以前的工作，实现了从由视频驱动的大脑活动到完整视频解码的全面进展。BrainNRDS 进一步深化了我们对大脑如何在动态视觉场景中表示空间和时间信息的理解。我们的发现展示了将脑成像与视频扩散模型结合在一起开发更稳健和生物启发式计算机视觉系统的技术潜力。我们在此网站上提供了额外的解码和编码示例：https://brain-nrds.github.io/。

发布时间: 3/26/2025

查看原文

从FP8再回到FP8：量化降低精度对大型语言模型训练稳定性的影響

作者: Joonhyung Lee, Jeongin Bae, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee

arXiv:2405.18710v2 宣告类型: replace-cross 摘要：与大规模语言模型（LLM）预训练相关的巨大计算成本激发了对减少精度的浮点表示的兴趣，以加速这一过程。因此，BrainFloat16（BF16）精度已成为LLM训练的事实标准，最近一代加速器中都包括了硬件支持。这一趋势在最新处理器中进一步发展，最近引入了FP8精度。然而，先前FP16的经验表明，其稳定性不如BF16，这引发了关于即使位数比FP16更少的FP8是否可以作为LLM训练的经济替代品的担忧。我们认为，减少精度的训练方案必须与高精度的对应方案具有类似的训练稳定性和超参数敏感性，才能具备经济性。然而，我们发现目前可用的FP8训练方法不够稳健，无法作为经济替代品使用。这促使我们研究减少精度的LLM训练的稳定性，涉及随机种子、学习率和数据集的稳健性。为此，我们提出了一种新的评估技术，并提出了一种新的度量标准来量化自回归语言模型中的损失景观锐度。通过模拟浮点表示中的逐步位数减少，我们分析了表示能力和训练稳定性之间的关系，旨在为该领域的未来研究提供帮助。

发布时间: 3/26/2025

查看原文

更仔细地审视时间步长值得 diffusion 模型训练提速三倍

作者: Kai Wang, Mingjia Shi, Yukun Zhou, Zekai Li, Zhihang Yuan, Yuzhang Shang, Xiaojiang Peng, Hanwang Zhang, Yang You

arXiv:2405.17403v3 宣布类型: replace-cross 摘要：训练扩散模型始终是一个计算密集型任务。在本文中，我们介绍了一种新的扩散模型训练加速方法，称为，该方法基于对时间步的更深入了解。我们的主要发现是：i) 根据过程增量，可以经验地将时间步划分为加速、减速和收敛区域。ii) 这些时间步是不平衡的，其中很多集中在收敛区域内。iii) 集中的时间步对扩散训练提供的益处有限。为了解决这一问题，我们设计了一种非对称采样策略，减少了从收敛区域内的时间步的频率，同时增加了来自其他区域的时间步的采样概率。此外，我们提出了一种加权策略，以强调快速变化过程增量的时间步的重要性。作为一种插即用且架构无关的方法，SpeeD在各种扩散架构、数据集和任务中的一致实现了3倍的加速。值得注意的是，由于其简单的设计，我们的方法在最小化开销的情况下显著降低了扩散模型训练的成本。我们的研究使得研究人员能够以更低的成本训练扩散模型。

发布时间: 3/26/2025

查看原文

基于图神经网络的条件移位稳健的校准预测

作者: S. Akansha

arXiv:2405.11968v3 宣布类型: replace-cross 摘要：图神经网络（GNNs）已经成为了预测图结构化数据中结果的强大工具。尽管它们非常有效，但GNNs的一个显著缺点在于它们有限的能力提供稳健的不确定性估计，这在错误可能带来重大后果的背景下给它们的可靠性带来了挑战。此外，GNNs通常在同分布设置下表现优异，即训练数据和测试数据遵循相同分布，这一条件在实际的图数据场景中往往不满足。本文通过对预测模型输出进行转换以生成预测集，利用一种广泛认可的统计技术——一致性预测，来解决图基半监督学习（SSL）中条件迁移下的不确定性量化问题。此外，我们提出了一个新颖的损失函数，旨在通过最小化潜变量阶段的条件迁移来改进模型预测。我们称这种方法为适用于GNN的一致性预测条件迁移鲁棒（CondSR）。我们的方法是模型无关的，并能够适应各种分类模型。我们在标准图基准数据集上验证了方法的有效性，并将其与最先进的GNNs结合用于节点分类任务中。综合评估表明，我们的方法可以一致地达到任何预定义的目标边际覆盖率，条件迁移下将最先进的GNN模型的准确性提高最多12%，并将预测集大小减少最多48%。该代码实现已公开，供进一步探索和实验使用。

发布时间: 3/26/2025

查看原文

MCRanker：生成多样化标准以提高点-wise LLM排名器的效果

作者: Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Le Yan, Qi Zhu, Yue Zhang

arXiv:2404.11960v3 通知类型: 替换-交叉摘要：最近的点wise大型语言模型（LLM）排名器取得了显著的排名结果。然而，这些排名器受到了两大主要缺陷的限制：（1）在排名过程中未能遵循标准化的比较指导，（2）在处理复杂的段落时难以进行全面考虑。为了应对这些不足，我们提出构建一个基于多种视角的一组标准生成排名分数的排名器。这些标准旨在从各个视角引导提供独特而协同的评估。我们的研究利用了来自BEIR基准的八个数据集，证明将这种多视角标准集合方法显著提升了点wise LLM排名器的性能。

发布时间: 3/26/2025

查看原文