arXiv 论文列表

作者: Nilava Metya, Arunesh Sinha

arXiv:2505.02347v1 Announce Type: 交叉摘要：离散时间线性动态系统，包括马尔可夫链，在许多应用中得到了广泛应用。然而，在某些问题中，系统运行的时间范围存在不确定性。这使得当系统停止时，基于状态分布所产生的成本（或奖励）存在不确定性。给定系统的运行时间的历史数据样本，我们提出在Wasserstein不确定性集合中从理论上分析分布鲁棒成本估计任务，而不是从少量样本中学习概率分布。为此，我们展示了在概率单纯形上的离散时间马尔可夫链与全局渐近稳定（GAS）离散时间线性动态系统的等价性，使得我们的研究仅基于GAS系统。然后，我们为我们的理论研究提供了不同情况下的多项式时间算法和 hardness 结果，包括基于Wasserstein距离的多面体的基本结果。

发布时间: 5/6/2025

查看原文

NeuroSim V1.5: 改进的软件基础架构，用于在考虑设备和电路级非理想性的条件下 benchmark 计算在内存加速器

作者: James Read, Ming-Yen Lee, Wei-Hsing Huang, Yuan-Chun Luo, Anni Lu, Shimeng Yu

arXiv:2505.02314v1 类型:交叉摘要:人工智能（AI）应用程序的指数级增长暴露了传统冯·诺依曼架构的低效性，其中计算单元与内存之间的频繁数据传输造成了重大的能量和延迟瓶颈。模拟计算在内存中（Analog Computing-in-Memory, ACIM）通过直接在内存阵列中执行乘累加（MAC）操作解决了这一挑战，大幅减少了数据移动。然而，设计稳健的ACIM加速器需要准确建模器件和电路级的非理想性。在本文中，我们介绍了NeuroSim V1.5，并介绍了几项关键进展：(1) 无缝集成TensorRT的后训练量化流程，支持更多的神经网络，包括变压器；(2) 基于预表征的统计模型构建灵活的噪声注入方法，使得从SPICE仿真或硅测量中引入数据变得简单；(3) 扩展了设备支持，包括新兴的非易失性电容式存储器；(4) 通过优化行为仿真，NeuroSim V1.5比NeuroSim V1.4快6.5倍的运行时。这些能力的结合使得在准确性和硬件效率指标上系统设计空间探索成为可能。通过多个案例研究，我们在保持网络准确性的前提下优化了关键设计参数。通过将高保真噪声建模与高效仿真相结合，NeuroSim V1.5推进了下一代ACIM加速器的设计和验证。所有NeuroSim版本均可在 https://github.com/neurosim/NeuroSim 开源获取。

发布时间: 5/6/2025

查看原文

什么是AI安全？我们希望它是怎样的？

作者: Jacqueline Harding, Cameron Domenico Kirk-Giannini

arXiv:2505.02313v1 类别:交叉研究摘要：人工智能安全领域的研究旨在防止或减轻由人工智能系统造成的危害。一种简单而有吸引力的看法认为，人工智能安全作为一个领域的独特性在于其构成性特征：只要一项研究项目旨在防止或减少由人工智能系统造成的危害，它就属于人工智能安全领域。称这种简单而吸引人的说法为“安全观念”下的人工智能安全。尽管这种说法简单且有吸引力，但我们认为“安全观念”与人工智能安全研究者和组织在思考和谈论人工智能安全方面的两个趋势存在紧张关系：首先，倾向于将人工智能安全研究的目标描述为未来系统所带来的灾难性风险；其次，人工智能安全可以被视为安全工程的一个分支这一日益流行的看法越来越受欢迎。采用概念工程的方法，我们认为这些趋势是不幸运的：当考虑最适合拥有的人工智能安全的概念时，有充分的理由认为“安全观念”是正确的答案。从描述的角度来看，“安全观念”让我们能够看到历史上被视为人工智能安全领域核心工作的内容与被视为边缘工作的内容，如偏差、错误信息和隐私，之间是如何连续的。从规范的角度来看，认真对待“安全观念”意味着基于它们的优点来处理所有防止或减轻由人工智能系统造成的危害的努力，而不是随意区分它们。

发布时间: 5/6/2025

查看原文

优化有限资源环境下的LLMs：模型压缩技术综述

作者: Sanjay Surendranath Girija, Shashank Kapoor, Lakshit Arora, Dipen Pradhan, Aman Raj, Ankit Shetgaonkar

arXiv:2505.02309v1 Announce Type: cross 摘要：大型语言模型（LLMs）已彻底改变了人工智能（AI）的许多领域，但它们庞大的资源需求限制了其在移动和边缘设备上的部署。本文综述了压缩LLMs的技术，使其能够在资源受限的环境中高效推理。我们探讨了三种主要方法：知识蒸馏、模型量化和模型剪枝。对于每种技术，我们讨论了其基本原理，介绍了不同的变体，并提供了成功的应用示例。我们还简要讨论了混合专家和早期退出策略等互补技术。最后，我们强调了一些有前景的未来方向，旨在为希望优化LLMs在边缘部署的研究人员和实践者提供有价值的资源。

发布时间: 5/6/2025

查看原文

适应性评分和阈值调整以人类反馈实现稳健的分布外检测

作者: Daisuke Yamada, Harit Vishwakarma, Ramya Korlakai Vinayak

arXiv:2505.02299v1 类型: cross 摘要：机器学习（ML）模型在训练时使用的是同分布（ID）数据，但在部署过程中往往会遇到异分布（OOD）输入——这在关键安全领域中构成了严重风险。近年来的研究主要集中在设计评分函数以量化OOD不确定性，这些评分函数的阈值通常基于ID数据设置，以达到目标的真实阳性率（TPR），因为部署前的OOD数据有限。然而，这些基于TPR的阈值没有控制假阳性率（FPR），这通常会导致高FPR，即OOD点被误分类为ID。此外，固定的评分函数和阈值缺乏适应性，无法处理新的、不断演变的OOD输入，导致性能不佳。为了解决这些挑战，我们提出了一种包含人类在环的框架，该框架\emph{能够在实时更新评分函数和阈值方面安全地进行调整}，基于实际的OOD输入。我们的方法在始终严格控制FPR的同时最大化TPR，即使系统随着时间的推移而适应。我们提供了在平稳条件下对FPR控制的理论保证，并在OpenOOD基准测试上进行了广泛的实证评估，证明了我们的方法在保持FPR控制的同时实现了更高的TPR，超越了现有的方法。

发布时间: 5/6/2025

查看原文

深度Q网络的万能逼近定理

作者: Qian Qi

arXiv:2505.02288v1 类别:交叉学科摘要: 我们通过随机控制和前向后向随机微分方程（FBSDEs）建立了一个连续时间框架，用于分析深度Q网络（DQNs）。考虑到由平方可积鞅驱动的连续时间马尔可夫决策过程（MDP），我们分析了DQN的逼近性质。我们利用剩余网络逼近定理和状态-动作过程的大偏差界，展示DQNs能够在紧集上以任意精度和高概率逼近最优Q函数。然后，我们分析了在这种情况下训练DQNs的一般Q学习算法的收敛性，调整了随机逼近定理。我们的分析强调了DQN层的数量、时间离散化以及在处理最优Q函数潜在非光滑性时粘性解（主要对于价值函数$V^*$）的作用。这项工作将深度强化学习与随机控制结合起来，为具有物理系统或高频数据的应用提供了关于连续时间环境中DQNs的见解。

发布时间: 5/6/2025

查看原文

使用随机零阶预言机最小化类类星体凸函数

作者: Amir Ali Farzin, Yuen-Man Pun, Iman Shames

arXiv:2505.02281v1 交叉公告类型摘要：本研究探讨了随机高斯平滑零阶（ZO）方案在最小化类类星体凸（QC）和强类类星体凸（SQC）函数时的性能，既在无约束情况下，也在受约束情况下。对于无约束问题，我们证明了ZO算法在应用于QC和SQC函数时向全局最小值收敛，并且分析了其复杂性。对于受约束问题，我们提出了新的邻近类类星体凸的概念，并证明了类似于无约束情况的结果。具体而言，我们展示了在方差减少方案下的复杂性边界，以及算法在全局最小值邻域内收敛。理论发现通过探讨在机器学习和优化领域中应用该算法的性能得到说明。具体来说，我们观察到ZO方法在某些情况下优于梯度下降。我们提供了一种可能解释这种现象的解释。

发布时间: 5/6/2025

查看原文

基于情景测试自动驾驶汽车中统计学基础的必要性

作者: Xingyu Zhao, Robab Aghazadeh-Chakherlou, Chih-Hong Cheng, Peter Popov, Lorenzo Strigini

arXiv:2505.02274v1 验证类型: 交叉摘要：基于场景的测试已成为自动驾驶车辆(_AVs_) 安全性测试的常见方法，提供了一种比基于英里的测试更高效的替代方案，因为它专注于高风险场景。然而，关于其停止规则、剩余风险估计、调试效果以及仿真保真度对安全性声明的影响，仍然存在一些基础性问题。本文认为，严格的统计基础是解决这些挑战并实现严格的安全性保证所必需的。通过将 AV 测试与传统软件测试方法进行类比，我们确定了共享的研究缺口和可重用的解决方案。我们提出了概念验证模型来量化每个场景的失败概率（pfs），并在不同条件下评估测试效果。分析结果揭示出，基于场景的测试和基于英里的测试在通用性上都没有绝对的优势。此外，我们引入了风险估计保真度 (REF)，这是一个新的指标，用于确保合成测试和实际测试结果的对齐，并确保基于仿真的安全性声明在其统计上是可辩护的。

发布时间: 5/6/2025

查看原文

四足机器人的稳健定位、建图与导航

作者: Dyuman Aditya, Junning Huang, Nico Bohlinger, Piotr Kicki, Krzysztof Walas, Jan Peters, Matteo Luperto, Davide Tateo

arXiv:2505.02272v1 宣告类型：交叉摘要：四足机器人目前是机器人研究中广泛应用的平台，得益于强大的强化学习控制器和廉价且可靠的商用平台。然而，为了在现实世界中推广这项技术，我们需要依赖低成本传感器（如深度相机）的稳健导航堆栈。本文提出了一种为低成本四足机器人构建稳健定位、建图和导航系统的初步步骤。为了实现这一目标，我们结合了接触辅助的几何校准、视觉惯性里程计和深度稳定视觉技术，增强了系统的稳定性和准确性。我们在仿真和两个不同的四足机器人平台上进行了实验，结果显示，我们的系统能够生成环境的准确二维地图，稳健地进行定位，并实现自主导航。此外，我们还对系统中重要组件的影响及其对定位精度的影响进行了深入的消融研究。项目视频、代码和额外实验可以在项目网站上找到：https://sites.google.com/view/low-cost-quadruped-slam

发布时间: 5/6/2025

查看原文

参数高效变换器嵌入

作者: Henry Ndubuaku, Mouad Talhi

arXiv:2505.02266v1 类别: cross 摘要：基于变换器的自然语言处理模型中的嵌入层 typically 占据了最多的模型参数比例，这些参数的数量随着词汇表大小的变化而变化，但并不会按比例提升性能。我们提出了一种替代方法，在该方法中，token 嵌入向量首先通过使用规范化值的傅里叶展开生成，然后通过一个轻量级的多层感知机（MLP）捕捉高阶交互。我们使用标准变换器和我们的架构在自然语言推断任务（SNLI 和 MNLI）上进行训练，并在句子文本相似性（STS-B）上进行零样本评估。我们的结果显示，所提出的方法在显著减少参数的情况下实现了竞争力的性能，训练速度更快，并且无需dropout即可有效运行。这项概念验证研究强调了可扩展、内存高效的语言模型的潜力，并激发了基于我们的发现进行进一步大规模实验的动机。

发布时间: 5/6/2025

查看原文