arXiv 论文列表

作者: Changjun Li, Runqing Jiang, Zhuo Song, Pengpeng Yu, Ye Zhang, Yulan Guo

arXiv:2505.00259v1 量化类型: 横向摘要：后训练量化(PTQ)已成为压缩复杂模型的一种突出解决方案，它倡导使用小型校准数据集，并避免全链路重新训练。然而，现有的大多数PTQ方法采用块级重建，忽视了跨块依赖性，并在低位宽情况下表现出明显的精度下降。为解决这些问题，本文提出了一种名为Pack-PTQ的新型PTQ方法。首先，我们设计了一种Hessian引导的自适应打包机制，将块划分为非重叠的打包单位，作为重建的基本单元，从而保留了跨块依赖性，并能够准确估计量化参数。其次，基于打包配置，我们提出了一种混合精度量化方法，根据不同包的敏感性分配不同的位宽，从而进一步提高性能。使用各种网络架构在2D图像和3D点云分类任务上的广泛实验表明，我们的方法在与最先进的PTQ方法相比时具有优越性。

发布时间: 5/2/2025

查看原文

赋予代理视频分析系统以视频语言模型能力

作者: Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu

arXiv:2505.00254v1 宣告类型: cross 摘要：AI驱动的视频分析在各个领域中变得越来越关键。然而，现有的系统通常仅限于特定的预定义任务，限制了它们在开放式分析场景中的适应性。最近，作为变革性技术出现的视频-语言模型（VLMs）为实现开放式视频理解、推理和分析提供了巨大的潜力。然而，它们有限的上下文窗口在处理现实世界应用程序中普遍存在的超长视频内容时提出了挑战。为了解决这一问题，我们介绍了一个名为AVA的VLM驱动系统，旨在实现开放式高级视频分析。AVA包含两项关键创新：（1）用于高效索引长或连续视频流的事件知识图（EKGs）的近实时构建，以及（2）一种利用EKGs处理复杂和多样化查询的主动检索-生成机制。在公共基准测试LVBench和VideoMME-Long上的全面评估显示，AVA达到了最先进的性能，分别取得了62.3%和64.1%的准确率，显著优于现有的VLM和视频检索增强生成（RAG）系统。此外，为了评估超长和开放世界的视频分析场景，我们引入了一个新的基准测试AVA-100。该基准测试包含8个视频，每个视频均超过10小时，以及120个手动标注的多样化和复杂问题-答案对。在AVA-100上，AVA取得了顶级性能，准确率为75.8%。

发布时间: 5/2/2025

查看原文

基于LLM的物联网生态系统威胁检测与预防框架

作者: Yazan Otoum, Arghavan Asad, Amiya Nayak

arXiv:2505.00240v1 Announce Type: cross 摘要：物联网（IoT）的日益复杂性和规模已经使其安全性成为了一个关键问题。本文提出了一种新的基于大型语言模型（LLM）的框架，用于物联网环境中的全面威胁检测和预防。该系统集成了针对物联网特定数据集（IoT-23, TON_IoT）进行微调的轻量级LLM，用于实时异常检测，并结合了针对资源受限设备优化的上下文感知自动缓解策略。基于Docker的模块化部署使得在多种网络条件下进行可扩展和可重复的评估成为可能。在模拟的物联网环境中进行的实验结果表明，与传统安全方法相比，在检测准确性、响应延迟和资源利用效率方面均有显著改进。提出的框架突显了基于LLM的自主安全解决方案在未来的物联网生态系统中的潜在价值。

发布时间: 5/2/2025

查看原文

在设备端扩展GPU推理以支持大规模生成模型

作者: Jiuqiang Tang, Raman Sarokin, Ekaterina Ignasheva, Grant Jensen, Lin Chen, Juhyun Lee, Andrei Kulik, Matthias Grundmann

arXiv:2505.00232v1 类别: cross 摘要：受生成AI技术进步的推动，大型机器学习模型在图像处理、音频合成和语音识别等领域取得了革命性的进展。尽管基于服务器的部署仍是性能峰值的所在，但出于隐私和效率的考虑，对设备端推理的需求依然存在。鉴于GPU在设备端机器学习加速方面具有最广泛的适用性，我们呈现了ML Drift——一种优化框架，扩展了最先进的GPU加速推理引擎的功能。ML Drift使得设备端可以执行含有10到100倍以上参数的生成AI工作负载，这些工作负载远超过现有设备端生成AI模型的数量。ML Drift解决了跨GPU API开发所面临的复杂工程挑战，并确保在移动和桌面/笔记本平台之间广泛兼容，从而在资源受限的设备上部署更为复杂的模型。我们的GPU加速的ML/AI推理引擎相对于现有的开源GPU推理引擎实现了一个数量级的性能提升。

发布时间: 5/2/2025

查看原文

使用纵向表变换器预测电气中断的恢复估计时间

作者: Bogireddy Sai Prasanna Teja, Valliappan Muthukaruppan, Carls Benjamin

arXiv:2505.00225v1 宣告类型: cross 摘要：随着气候变异性增加，电力供应商在自然灾害期间提供精确的预计恢复时间（ETR）的能力变得越来越关键。准确且及时的ETR对于在长时间断电期间使客户做好准备至关重要，尤其是在极端天气条件下，明智的决策尤为关键。然而，现有的电力实践主要依赖于手动评估或传统统计方法，这些方法往往无法实现可靠且可操作的预测所需的精度。为了解决这些局限性，我们提出了一种纵向表格变换器（LTT）模型，该模型利用历史断电事件数据及其序列更新，以提高ETR预测的准确性。我们在历时两年、涵盖三个主要电力公司共34,000起风暴相关断电事件中评估了该模型的性能。结果表明，与现有方法相比，LTT模型在客户满意度影响（CSI）指标上平均提高了19.08%（p > 0.001）。此外，我们引入了基于客户的回归指标，使模型评估与实际满意度相一致，确保结果能够反映客户期望。此外，我们采用了可解释性技术来分析在建模断电事件时纳入序列更新的时间意义，并identify预测特征对给定ETR的贡献。这种全面的方法不仅提高了预测准确性，还增强了透明度，从而增加了对模型能力的信任。

发布时间: 5/2/2025

查看原文

AI增强的高效水下航行器自动设计

作者: Peter Yichen Chen, Pingchuan Ma, Niklas Hagemann, John Romanishin, Wei Wang, Daniela Rus, Wojciech Matusik

arXiv:2505.00222v1 交叉领域公告类型：多领域交叉摘要：新型自主水下航行器的发展受限于有限的外形多样性，主要是由于依赖于传统的设计工具，这些工具严重依赖于手动的试错过程。构建自动设计框架具有挑战性，因为水下航行器形状的表示复杂，并且建模复杂的固液相互作用需要高昂的计算成本。在本文中，我们介绍了一种增强人工智能的自动计算框架，旨在通过使非平凡船体形状的水下机器人设计成为可能来克服这些限制。我们的方法涉及一个同时优化形状和控制信号的算法，利用了简化几何表示和基于可微神经网络的流体近似模型。这种端到端设计工作流程有助于快速迭代和评估水动力性能，从而在各种控制设置下发现最优和复杂的船体形状。我们通过风洞实验和游泳池滑行试验验证了我们的方法，结果显示，我们计算设计的水下航行器在能量效率方面超过了手动设计的同类产品。通过解决高效的形状表示和神经流体近似模型的挑战，我们的工作为开发高效的水下航行器铺平了道路，并对远程海洋探索和环境监测具有重要意义。

发布时间: 5/2/2025

查看原文

在线联邦学习：混合专用代理的黑盒编码

作者: Xuwei Yang, Fatemeh Tavakoli, David B. Emerson, Anastasis Kratsios

arXiv:2505.00216v1 Announce Type: cross 摘要：大多数工业标准生成人工智能和特征编码器是专有的，仅提供黑盒访问：其输出是可观察的，但其内部参数和架构对最终用户仍然保密。特别是，在构建专家混合类型集合模型时，用户无法优化每个专有AI的内部参数，这种黑盒访问限制很大。我们的问题自然地适用于非竞争性的博弈论视角，在这种视角中，每个专有AI（代理）本质上是与其他AI代理竞争的，这种竞争源于它们对其他AI代理内部结构的无知。相反，用户作为中央计划者，试图同步竞争的AI代理群体。我们在线设置下证明了存在唯一的纳什均衡，甚至通过任何给定时间序列与其每个（专有）AI代理生成的序列之间的反馈机制，计算出该纳什均衡的具体形式。我们的解决方案通过去中心化、联邦学习算法实施，其中每个代理在其机器上本地优化其结构，而从不向其他代理释放任何内部结构。我们对预训练模型（如变压器、随机特征模型和回声状态网络）得到了改进的表达式。我们的“专有联邦学习”算法在一系列真实世界和合成时间序列基准上实现。与很少探索的自然基准相比，它在预测准确性上取得了数量级的提升。

发布时间: 5/2/2025

查看原文

渐进编码在稀疏自编码器中的 empirical 评估

作者: Hans Peter, Anders S{\o}gaard

arXiv:2505.00190v1 宣告类型: cross 摘要: 稀疏自动编码器（SAEs）[@bricken2023monosemanticity, gao2024scalingevaluating sparseautoencoders] 依赖于聚类学习，以无监督的方式在大规模神经网络中提取可解释的特征，应用于表示工程和信息检索。然而，SAEs 在计算上较为昂贵 [@lieberum2024gemmascopeopensparse]，特别是在需要不同大小的多个 SAE 时。我们发现， vanilla SAEs 中的字典重要性遵循幂律。我们在语言建模任务上比较了基于 SAE 子集剪枝的渐进编码与联合训练嵌套 SAEs（所谓的“马特罗什卡”SAEs [@bussmann2024learning, nabeshima2024Matryoshka]）之间的差异。我们发现“马特罗什卡”SAEs 在重构损失和重捕获语言建模损失方面较低，并且表示相似度更高。然而，剪枝后的 vanilla SAEs 更具有可解释性。我们讨论了这种权衡的起源和意义。

发布时间: 5/2/2025

查看原文

基于神经演化的人原型注意力演化

作者: Rafael C. Pinto, Anderson R. Tavares

arXiv:2505.00186v1 交叉型公告摘要：原型对象——具有共同视觉属性的图像区域，为神经网络中传统的基于矩形图像块的注意力机制提供了一种有希望的替代方案。尽管以前的工作表明，可以在控制器网络的同时训练基于块的硬注意力模块，以在视觉强化学习任务中实现最先进的性能，但我们的方法利用图像分割来处理高层特征。通过在原型对象而非固定块上操作，我们显著降低了表征复杂性：每个图像分解为的原型对象少于常规块，并且每个原型对象可以被有效地表示为紧凑的特征向量。这使得可以处理含有更丰富语义信息的自注意力模块。我们的实验结果表明，基于原型对象的方法在参数量减少62%和训练时间减少2.6倍的情况下，达到了或超过了基于块的实现的最先进的性能。

发布时间: 5/2/2025

查看原文

基于注意力的可解释人工智能用于膀胱癌复发预测

作者: Saram Abbas, Naeem Soomro, Rishad Shafik, Rakesh Heer, Kabita Adhikari

arXiv:2505.00171v1 Announce Type: cross 摘要：非肌肉浸润性膀胱癌（NMIBC）是肿瘤学中的一个棘手问题，复发率高达70-80%。每次复发都会引发一系列侵入性程序、终身监视以及不断攀升的医疗成本，影响着世界各地的46万人。然而，现有的临床预测工具仍然根本性地存在缺陷，往往高估复发风险，未能为患者管理提供个性化的见解。在本文中，我们提出了一种可解释的深度学习框架，该框架整合了向量嵌入和注意力机制，以提高NMIBC复发预测性能。我们为诸如吸烟状态和膀胱内治疗等分类变量引入了向量嵌入，使模型能够捕捉患者属性与复发风险之间的复杂关系。这些嵌入提供了数据的更丰富表示，增强了特征交互并提高了预测性能。我们的方法不仅提升了性能，还通过对每个患者的最具影响力的特征进行突出显示，为临床医生提供了个性化的见解。我们的模型在表格数据上的准确率为70%，超越了传统统计方法，同时通过特征注意力为临床医生提供患者级别的解释。与之前的研究所不同，我们的方法识别了新的重要因素，如手术时间和住院时间，这些因素在现有的NMIBC预测模型中未曾被考虑。

发布时间: 5/2/2025

查看原文