arXiv 论文列表

作者: Janaka Chathuranga Brahmanage, Jiajing Ling, Akshat Kumar

arXiv:2502.10431v1 Announce Type: cross 摘要：在许多强化学习（RL）应用中，确保智能体的动作遵守约束对于安全性至关重要。在动作约束强化学习（ACRL）的大多数先前方法中，都在策略网络之后使用投影层来校正动作。然而，基于投影的方法会遇到梯度消失问题，并且由于使用优化求解器而导致运行时间增加。最近提出了一种训练生成模型来学习从潜在变量到可行动作的可微映射的方法，以解决这个问题。然而，生成模型需要使用受限动作空间中的样本来进行训练，这本身具有挑战性。为了解决这些限制，首先，我们基于约束违反信号定义了可行动作的目标分布，并通过最小化可近似的动作分布与目标之间的KL散度来训练归一化流，从而消除了生成可行动作样本的需要，大大简化了流模型的学习。其次，我们将学习到的流模型与现有的深度RL方法集成，限制其仅探索可行动作空间。第三，我们将我们的方法扩展到ACRL之外，通过从环境中学习约束违反信号来处理状态约束。实验结果表明，与以前的最佳方法相比，我们的方法在多个控制任务中具有更少的约束违反情况，并且在质量上达到或超过了相似的水平。

发布时间: 2/18/2025

查看原文

使用Concerto强化学习的 tandem-wing 实验平台实时控制

作者: Zhang Minghao, Yang Xiaojun, Wang Zhihe, Wang Liang

arXiv:2502.10429v1 声明类型: cross 摘要：本文介绍了CRL2RT算法，这是一种先进的强化学习方法，旨在提高直接驱动串联翼实验平台（DDTWEP）的实时控制性能。受蜻蜓飞行的启发，DDTWEP的串联翼结构导致了非线性和非稳态的气动相互作用，在俯仰、滚转和偏航操作过程中产生了复杂的载荷行为。这些复杂性给高频率（2000 Hz）下的稳定运动控制带来了挑战。为了克服这些问题，我们开发了CRL2RT算法，该算法通过时间交织架构和基于规则的策略组合器，结合了传统控制元素和基于强化学习的控制器。这种集成确保了有限时间收敛和单实例适应性。在不同条件下进行的实验结果显示，在标准CPU上，CRL2RT实现了超过2500 Hz的控制频率。此外，当与PID、自适应PID和模型参考自适应控制（MRAC）等传统控制器结合使用时，CRL2RT的跟踪性能提高了18.3%到60.7%。这些发现不仅证明了CRL2RT在复杂实时控制场景中的广泛适用性和优越性能，而且验证了其在克服现有控制策略局限性、提高生物仿生空中车辆鲁棒性和高效性方面的有效性。

发布时间: 2/18/2025

查看原文

platonic 回归到本原的，颗粒归仓的意思在这里可能不太适用，我们直接翻译标题中的其他部分： Neuron Platonic Intrinsic Representation From Dynamics Using Contrastive Learning 翻译成中文：使用对比学习从动态中获取神经元本质表示

作者: Wei Wu, Can Liao, Zizhen Deng, Zhengrui Guo, Jinzhuo Wang

arXiv:2502.10425v1 Announce Type: cross 摘要：平atisfaction假设（柏拉图表征假设）提出了一种超越不同数据模态的通用现实表征。受此启发，我们把每个神经元视为一个系统，并在其在各种边缘条件下的多段活动数据中进行检测。我们假设每个神经元有一个时间不变的表征，反映其内在属性，如分子谱型、位置和形态。获得这些内在神经元表征的目标有两个标准：（I）来自同一神经元的段应该比来自不同神经元的段有更多的类似表征；（II）这些表征必须能够很好地泛化到域外数据。为了满足这些要求，我们提出了NeurPIR（神经柏拉图内在表征）框架。该框架使用对比学习，来自同一神经元的段为正样本对，来自不同神经元的段为负样本对。在实现上，我们使用了VICReg，该方法侧重于正样本对，并通过正则化区分不相似样本。我们使用Izhikevich模型模拟的神经元群体动态数据测试了我们的方法，结果基于预设的超参数准确地识别了神经元类型。我们还将其实验应用到了两个具有空间转录组学标签和神经元位置的真实神经元动态数据集上。我们模型学习到的表征准确预测了神经元类型和位置，并且在域外数据（来自未见过的动物）上表现出较强的鲁棒性。这表明我们方法在理解神经元系统和未来神经科学研究方面的潜力。

发布时间: 2/18/2025

查看原文

QuantSpec：层次量化KV缓存的自我 speculative 解码

作者: Rishabh Tiwari, Haocheng Xi, Aditya Tomar, Coleman Hooper, Sehoon Kim, Maxwell Horton, Mahyar Najibi, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

arXiv:2502.10424v1 类型: cross 摘要：大型语言模型（LLMs）越来越多地在边缘设备上部署以处理长上下文场景，这创造了一种对快速高效长上下文推断日益增长的需求。在这种情况下，作为GPU内存和延迟主要瓶颈的的键值（KV）缓存，在每个解码步骤中都需要加载完整的KV缓存。虽然投机性解码是一种广泛接受的技术，用于加速自回归解码，但现有的方法往往难以实现显著的加速，通常是由于KV缓存优化策略效率低，导致接受率低。为了解决这些问题，我们提出了一种新的自投机性解码框架QuantSpec，其中草稿模型采用了目标模型的架构，但使用了分层4位量化KV缓存和4位量化权重来加速。QuantSpec保持了高的接受率（>90%），并可靠地提供了端到端加速，最多可达约2.5倍，优于其他使用稀疏KV缓存进行长上下文LLM推断的自投机性解码方法。此外，QuantSpec与这些替代方案相比，还减少了约1.3倍的内存需求。

发布时间: 2/18/2025

查看原文

DA-LIF: 双适应漏整合与放电模型用于深度脉冲神经网络

作者: Tianqing Zhang, Kairong Yu, Jian Zhang, Hongwei Wang

arXiv:2502.10422v1 Announce Type: cross 摘要：脉冲神经网络（SNNs）因其高效处理时空信息的能力而受到重视，提供了生物合理性、低能耗以及与神经形态硬件的兼容性。然而，常用的泄漏积分-发放（LIF）模型忽略了神经元的异质性，并分别处理空间和时间信息，限制了SNNs的表达能力。在本文中，我们提出了双适应泄漏积分-发放（DA-LIF）模型，该模型引入了独立可学习的衰减，以实现空间和时间调节。评估表明，与最先进的方法相比，DA-LIF模型在更少的时间步内实现了更高的精度。重要的是，DA-LIF模型通过最少的额外参数实现了这些改进，保持了低能耗。广泛的消融研究进一步突出了DA-LIF模型的鲁棒性和有效性。

发布时间: 2/18/2025

查看原文

DRiVE: 动态识别在车辆中使用 snnTorch

作者: Heerak Vora, Param Pathak, Parul Bakaraniya

arXiv:2502.10421v1 宣告类型: cross 摘要：脉冲神经网络（SNNs）模仿生物大脑活动，通过事件驱动的设计高效处理数据，其中神经元仅在输入超过特定阈值时激活。通过膜电位动力学追踪电压变化有助于保留时间信息。本研究将SNNs与PyTorch的可适应框架snnTorch结合，测试其在基于图像的任务中的潜在能力。我们介绍了DRiVE，这是一种使用脉冲神经元动力学对图像进行分类的车辆检测模型，准确率达到94.8%，接近完美的0.99的AUC分数。这些结果突显了DRiVE有效区分车辆类别的能力，挑战了SNNs仅限于时间数据的传统观念。随着对能源高效神经模型的兴趣日益增长，DRiVE的成功强调了需要为视觉任务精炼SNN优化的重要性。这项工作鼓励在传统网络遇到困难的情况下，更广泛地探索SNNs，特别是对于既需要精度又需要效率的实际应用。

发布时间: 2/18/2025

查看原文

基于边缘-云联邦学习环境的多模大型语言模型部署的混合 swarm 智能优化方法

作者: Gaith Rjouba, Hanae Elmekki, Saidul Islam, Jamal Bentahar, Rachida Dssouli

arXiv:2502.10419v1 交叉公告类型摘要：联邦学习（FL）、多模态大型语言模型（MLLMs）和边缘云计算相结合，能够在保护边缘设备和云基础设施之间隐私的同时实现分布式和实时数据处理。然而，在资源受限的边缘设备环境中部署MLLMs在FL环境中带来了重大挑战，包括资源管理、通信开销和非IID数据。为了解决这些挑战，我们提出了一种新的混合框架，在这种框架中，带有充足资源和电池寿命的边缘设备上部署MLLMs，而大部分训练则在云中进行。为了识别适合部署的边缘设备，我们采用粒子群优化（PSO）来识别边缘设备，利用蚂蚁 colony 优化算法（ACO）来优化边缘节点与云节点之间模型更新的传输。这一基于群智能的框架旨在通过在云中进行大量训练并在边缘进行微调来提高MLLM训练的效率，从而降低能耗和通信成本。我们的实验结果表明，与传统的FL方法相比，所提出的方法显著提高了系统性能，准确率达到92%，降低了30%的通信成本，并且提高了客户端的参与度。这些结果使所提出的方法非常适合大规模的边缘云计算系统。

发布时间: 2/18/2025

查看原文

使用蒙特卡洛模拟的进化电源感知VANET路由

作者: J. Toutouh, S. Nesmachnow, E. Alba

arXiv:2502.10417v1 交叉类型：摘要：本文将减少车辆网络中AODV路由协议的功率消耗问题作为优化问题进行研究。如今，网络设计师们专注于能源意识型的通信协议，特别是在部署无线网络方面。在这里，我们通过使用进化算法和并行蒙特卡洛模拟来介绍一种自动方法，以搜索能源效率更高的AODV配置，从而提高对试探性解决方案评估的准确性。实验结果表明，与标准配置相比，可以实现显著的功率消耗改进，同时服务质量并无显著损失。

发布时间: 2/18/2025

查看原文

基于机器学习的多辖区合规性收敛分析：使用BERT和K-均值聚类

作者: Raj Sonani, Lohalekar Prayas

arXiv:2502.10413v1 类型:横跨领域摘要：数字数据持续增长，人们开始转向有效的监管机制来保护个人隐私。加利福尼亚州的CCPA和欧洲联盟的《通用数据保护条例》（GDPR）是最重要的隐私法规的两个例子。这些法规旨在保护消费者隐私，但它们在范围、定义和执行方法方面差异巨大。本文提出了一种适应性合规的新方法，利用机器学习，并强调自然语言处理（NLP）作为GDPR与CCPA之间比较的主要焦点。通过NLP，这项研究将各种法规进行比较，以识别它们重叠或分歧的领域，包括GDPR中的“被遗忘权”和CCPA中的“撤回销售同意”。国际企业可以从这份报告中学习到宝贵的经验教训，因为它阐述了在不同国家更有效地执行法律的战略。此外，论文还讨论了在法律文献中使用NLP的挑战，并提出了增强机器学习模型的研究能力的方法。研究的目标是“弥合法规知识和技术专长之间的差距”，通过发展更高效运行且更能有效保护数据的合规策略。

发布时间: 2/18/2025

查看原文

识别监测国家人工智能战略的相关指标

作者: Renata Pelissari, Ricardo Suyama, Leonardo Tomazeli Duarte, Henrique S\'a Earp

arXiv:2502.10412v1 宣布类型：交叉摘要：如何有效地监控国家人工智能战略？为回答这一问题，我们提出了一种方法论，该方法论包含两个关键组成部分。首先，它涉及在国家人工智能战略中识别相关的指标。其次，它评估这些指标与特定政府人工智能战略中的战略行动之间的契合度，从而对监控措施进行关键评价。此外，识别这些指标有助于评估战略结构的整体质量。战略行动与识别的指标之间缺乏契合可能揭示战略中的空白或盲点。该方法论通过巴西人工智能战略案例研究进行了展示。

发布时间: 2/18/2025

查看原文