arXiv 论文列表

作者: Yuxuan Zhu, Ali Falahati, David H. Yang, Mohammad Mohammadi Amiri

arXiv:2504.00970v1 Announce Type: cross 摘要：大语言模型在处理长上下文时面临显著的计算和内存挑战。在推断过程中，关键值（KV）缓存的有效管理，即存储自回归生成的中间激活值，对于减少内存开销和提升计算效率至关重要。传统基于标记级别的高效KV缓存方法忽视了语义信息，独立地处理标记而不考虑它们之间的语义关系。另一方面，现有的保留语义的KV缓存管理方法往往会导致大量的内存使用和高时间延迟。为了解决这些限制，我们提出了一种新的基于句子级别的语义KV缓存方法——SentenceKV，旨在在保持语义连贯性的同时提高推断效率。在预填充阶段，SentenceKV根据句子级别的语义相似性对标记进行分组，将句子表示压缩为简洁的语义向量，并直接存储在GPU上，而单独的KV对则卸载到CPU。在解码过程中，SentenceKV通过选择性检索与预填充阶段语义向量和解码阶段查询之间语义相似的句子级KV条目来生成标记。这确保了高效且上下文准确的预测，最小化冗余或不相关数据加载到GPU内存，显著减少了内存开销，同时保持稳定推断延迟，即使是极长的上下文。在包括PG-19、LongBench和Needle-In-A-Haystack在内的基准测试中，SentenceKV在效率和内存使用方面显著优于现有方法，且不牺牲模型准确性。

发布时间: 4/2/2025

查看原文

HDVIO2.0: 结合动力学VIO的风和干扰估计

作者: Giovanni Cioffi, Leonard Bauersfeld, Davide Scaramuzza

arXiv:2504.00969v1 声明类型: cross 摘要: 视觉-惯性里程计(VIO)广泛用于自主微型飞行器中的状态估计，使用机载传感器。当前方法通过引入平移车辆动力学模型来提高VIO的性能，但在面对低精度的车辆模型或持续的外部干扰（如风）时，其性能会下降。此外，当这些模型在在线应用中部署时（例如，在闭环控制系统中），引入旋转动力学会导致计算上的不可行性。我们介绍了HDVIO2.0，该模型包含完整的6自由度（包含平移和旋转）车辆动力学，并将它们尽可能紧密地集成到VIO中，对运行时间的影响最小。HDVIO2.0基于之前的HDVIO工作，并通过结合质点车辆模型和基于学习的组件，同时访问控制指令和IMU历史记录，以捕捉复杂的气动效应来解决这些挑战。建模旋转动力学的关键思想是用连续时间函数表示它们。HDVIO2.0利用混合动力学模型预测的运动与实际运动之间的偏差来估计外部力以及机器人状态。我们的系统在使用公开和新的无人机动力学数据集以及在25 km/h风下的实际飞行实验中，超越了现有方法的最佳性能。此外，我们还表明，准确的车辆动力学预测在无需精确掌握完整车辆状态的情况下也是可行的。

发布时间: 4/2/2025

查看原文

在商用神经形态处理器上实现片上学习以实现边缘AI系统中高效的脉冲神经网络处理

作者: Rachmad Vidya Wicaksana Putra, Pasindu Wickramasinghe, Muhammad Shafique

arXiv:2504.00957v1 类型: cross 摘要：随着对能量效率边缘AI系统的能源需求（例如，移动代理/机器人）的不断上升，神经形态计算的兴趣也随之增加，因为它通过神经形态处理器上的尖峰神经网络（SNN）算法提供了超低功耗/能效的AI计算。然而，这些高效实施策略尚未进行全面研究，从而限制了SNN部署在边缘AI系统中的应用。为此，我们提出了一种设计方法，以在商用神经形态处理器上实现高效的SNN处理。为此，我们首先研究了目标神经形态硬件的关键特征（例如，内存和计算预算），并利用这些信息进行网络选择的兼容性分析。然后，我们采用了一种映射策略，以在目标处理器上高效实现SNN。此外，我们纳入了一种高效的片上学习机制，以更新系统的知识，以适应新的输入类别和动态环境。实验结果表明，所提出的方法使得系统能够在不同的应用和场景中实现较低的推理延迟（例如，图像分类低于50ms，视频流中实时物体检测低于200ms，关键词识别低于1ms），以及较低的片上学习延迟（例如，关键词识别低于2ms），同时耗散的处理功率不到250mW，能效不到15mJ。这些结果表明，所提出的方法在实现具有多样应用场景的高效边缘AI系统方面的潜力。

发布时间: 4/2/2025

查看原文

不公平的学习：GenAI 特权与版权法

作者: David Atkinson

arXiv:2504.00955v1 宣称类型: cross 摘要：本文挑战了这样的观点，即由于合理使用（Fair Use）的辩护，生成型人工智能（GenAI）在未经授权复制受版权保护的作品时应享有广泛的版权法豁免权。本文检视了合理使用的法律论点以及八个具体的实质性论点，认为支持GenAI合理使用的每一项法律和实质性论点也同样适用于人类，甚至更为适用。因此，给予GenAI在这一领域的特殊特权，在法律和逻辑上与拒绝为个人提供广泛的合理使用豁免是一致的。这意味着没有人需要再次为几乎任何版权作品支付费用。解决方案是对任何实体进行大规模版权复制的合理使用主张持谨慎态度，并专注于是否允许Such exceptionalism for GenAI是否促进科学和艺术这一基本原则。

发布时间: 4/2/2025

查看原文

面向实例驱动的精确视觉对应在多模态检索中的研究

作者: Bangwei Liu, Yicheng Bao, Shaohui Lin, Xuhong Wang, Xin Tan, Yingchun Wang, Yuan Xie, Chaochao Lu

arXiv:2504.00954v1 宣传类型:跨模态摘要：跨模态检索系统正变得越来越重要，特别是在实体人工智能和人工智能驱动的数字内容行业中。然而，当前的跨模态检索任务缺乏足够的复杂性，实用性有限。这激励我们设计实例驱动的跨模态图像检索（IDMR），这是一个新颖的任务，要求模型检索包含与查询图像相同实例的同时匹配文本描述的场景图像。不同于现有的主要关注全局图像相似性或类别匹配的检索任务，IDMR 要求在多种上下文中保持精细的实例一致性。为了测试这一能力，我们使用真实世界的对象跟踪和一视角视频数据开发了 IDMR 基准。为了解决训练数据稀缺的问题，我们提出了一种跨模态合成方法，通过从标准检测数据集中裁剪对象，生成了 55.7 万训练样本。基于 120 万样本训练的基于多模态大型语言模型（MLLM）的检索模型，在传统基准和我们的零样本 IDMR 基准上均优于现有方法。实验结果表明了之前模型在实例感知检索方面存在的局限性，并突显了 MLLM 在高级检索应用中的潜力。完整的训练数据集、代码和模型（多种大小）可在 https://github.com/BwLiu01/IDMR 获取。

发布时间: 4/2/2025

查看原文

具有隐私保证的个性化联邦训练扩散模型

作者: Kumar Kshitij Patel, Weitong Zhang, Lingxiao Wang

arXiv:2504.00952v1 宣告类型: cross 摘要: 可访问、合规且伦理来源的数据稀缺性为人工智能(AI)在医疗保健、金融和生物医学研究等敏感领域的应用带来了极大挑战。此外，由于隐私、版权和竞争日益引起关注，获取不受限制的公共数据集也变得越来越受限。合成数据作为一种有前景的替代方案出现，并且生成模型——一种前沿的生成AI技术——为生成高质量和多样化的合成数据提供了有效解决方案。在本文中，我们提出了一种用于训练分散私有数据集上的生成模型的新联邦学习框架。该框架利用个性化以及正向扩散过程中固有的噪声来生成高质量的样本，同时确保强大的差分隐私保障。我们的实验表明，在高数据异质性环境下，我们的框架优于非协作训练方法，并有效减少了合成数据中的偏差和不平衡，从而产生更公平的下游模型。

发布时间: 4/2/2025

查看原文

QSViT: 一种量化脉冲视觉变换器的方法论

作者: Rachmad Vidya Wicaksana Putra, Saad Iftikhar, Muhammad Shafique

arXiv:2504.00948v1 类型: cross 摘要：基于Vision Transformer (ViT) 的模型在基于视觉的AI任务中展现了最先进的性能（例如，准确率）。然而，要在资源受限的嵌入式AI系统中实现其能力具有挑战性，因为它们固有的大内存占用和复杂的计算，从而导致高功率/能量消耗。最近，基于Spiking Vision Transformer (SViT) 的模型作为低功耗ViT网络的替代品已经出现。然而，SViT模型仍然因大内存占用而阻碍其在资源受限的嵌入式AI系统中的应用。因此，需要一种方法来压缩SViT模型而不显著降低其准确率。为了解决这一问题，我们提出了一种新的设计方法QSViT，通过在不同网络层系统化地量化策略来压缩SViT模型。为了实现这一目标，我们的QSViT采用了一些关键步骤：（1）研究不同精度级别在不同网络层的影响，（2）确定适当的基准量化设置以指导比特精度的减少，（3）根据基准设置执行指导量化策略来选择适当的量化设置，以及（4）基于选定的量化设置开发高效的量化网络。实验结果表明，我们的QSViT方法在ImageNet数据集上实现了22.75%的内存节省和21.33%的功率节省，同时在原始非量化SViT模型的准确率基础上仅减少了2.1%。这些结果突显了QSViT方法的潜力，可以为资源受限的嵌入式AI系统中的高效SViT部署铺平道路。

发布时间: 4/2/2025

查看原文

结核性脑膜炎的图形分类与放射omics特征识别

作者: Snigdha Agarwal, Ganaraja V H, Neelam Sinha, Abhilasha Indoria, Netravathi M, Jitender Saini

arXiv:2504.00943v1 Announce Type: cross 摘要：引言：结核性脑膜炎（TBM）是由结核分枝杆菌引起的一种严重脑部感染，其特征是覆盖大脑和脊髓的脑膜炎症。诊断通常需要进行侵入性的腰椎穿刺（LP）和脑脊液（CSF）分析。目标：本研究旨在使用T1加权（T1w）非对比磁共振成像（MRI）扫描对结核性脑膜炎患者进行分类。我们假设特定的大脑区域，如脚间裂、骨组织和胼胝体，包含可以非侵入性地区分结核性脑膜炎患者与健康对照者的视觉标志。我们提出了一种新颖的像素阵列图分类器（PAG-Classifier），该分类器基于图框架中相邻3D像素的空间关系，通过特征值分解提取显著特征，然后使用这些特征训练机器学习分类器以实现有效的患者分类。我们采用基于影像组学的方法验证我们的方法，根据相关影像组学特征对结核性脑膜炎患者进行分类。结果：我们使用了一个内部数据集，包含52个扫描，其中32个来自脑脊液中检测到结核分枝杆菌的确认结核性脑膜炎患者，20个来自健康个体。我们使用PAG-Classifier在脚间裂区域实现了85.71%的5折交叉验证平均F1分数，使用影像组学特征分类器在相同区域实现了92.85%的F1分数，分别优于当前最先进的基准15%和22%。然而，骨组织和胼胝体区域的分类效果不佳，平均F1分数低于50%。结论：我们的研究表明，像PAG-Classifier这样的算法可以作为非侵入性TBM分析的有效工具，特别是在针对脚间裂的分析方面。研究结果表明，骨组织和胼胝体区域缺乏区分的特征模式。

发布时间: 4/2/2025

查看原文

AI/ML模型相关于健康中种族的角色及其应用

作者: Martin C. Were, Ang Li, Bradley A. Malin, Zhijun Yin, Joseph R. Coco, Benjamin X. Collins, Ellen Wright Clayton, Laurie L. Novak, Rachele Hendricks-Sturrup, Abiodun Oluyomi, Shilo Anders, Chao Yan

arXiv:2504.00899v1 Announce Type: 关交叉摘要：在与健康相关的人工智能和机器学习（AI/ML）模型中，种族的作用及其使用引发了越来越多的关注和争议。尽管相关问题错综复杂，但仍然缺乏一个既能全面又能系统地指导相关利益方进行审视和解决的框架。本文提供了关于种族相关挑战的广泛系统且横跨多个领域的景观分析，围绕AI/ML生命周期进行结构化，并通过“注意事项”来支持研究和决策。

发布时间: 4/2/2025

查看原文

神经网络的光谱架构搜索

作者: Gianluca Peri, Lorenzo Giambagli, Lorenzo Chicchi, Duccio Fanelli

arXiv:2504.00885v1 声称类型: 交叉学科摘要：在人工神经网络领域，架构设计和优化是具有挑战性的问题。在此背景下，我们在此介绍SPARCS（SPectral ARchiteCture Search），一种利用层间传输矩阵的光谱属性的新架构搜索协议。SPARCS通过展开连续和可微分流形来探索可能的架构空间，从而使得基于梯度的优化算法得以应用。在参考简单的基准模型时，我们展示了新提出的这种方法生成了一个表达能力最小但足以处理所研究任务的自涌现架构，并且其参数量相比其他可行的替代方案有所减少。

发布时间: 4/2/2025

查看原文