arXiv 论文列表

Mem2Ego：为长 horizon 体态导航增强视觉-语言模型的全局到 ego 内存功能

作者: Lingfeng Zhang, Yuecheng Liu, Zhanguang Zhang, Matin Aghaei, Yaochen Hu, Hongjian Gu, Mohammad Ali Alomrani, David Gamaliel Arcos Bravo, Raika Karimi, Atia Hamidizadeh, Haoping Xu, Guowei Huang, Zhanpeng Zhang, Tongtong Cao, Weichao Qiu, Xingyue Quan, Jianye Hao, Yuzheng Zhuang, Yingxue Zhang

arXiv:2502.14254v1 交叉公告类型摘要：近期大型语言模型（LLMs）和视觉-语言模型（VLMs）的发展使其成为增强现实导航的强大工具，使代理能够利用常识和空间推理在陌生环境中有效地进行探索。现有的基于LLM的方法将全局记忆（如语义或拓扑地图）转换为语言描述以引导导航。虽然这提高了效率并减少了冗余探索，但基于语言的表示损失几何信息，阻碍了空间推理，尤其是在复杂环境中。为了解决这一问题，基于VLM的方法直接处理自中心视觉输入，以选择最佳的探索方向。然而，仅依赖第一人称视角使导航成为部分观察到的决策问题，导致在复杂环境中做出次优决策。在本文中，我们提出了一种新的基于VLM的导航框架，通过自适应地从全局记忆模块检索与任务相关的信息并将这些信息与代理的自中心观察结果结合起来，来应对这些挑战。通过动态对齐全局上下文信息和局部感知，我们的方法增强了在长期任务中的空间推理和决策能力。实验结果表明，所提出的方法在对象导航任务中超越了之前最先进的方法，提供了在增强现实导航中更加有效和可扩展的解决方案。

发布时间: 2/21/2025

查看原文

Pandora3D：全面的高品質3D形狀和紋理生成框架

作者: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Chen, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

arXiv:2502.14247v1 类型: cross 摘要：本报告提出了一种全面的框架，用于从单张图像、多视图图像和文本描述等多种输入提示生成高质量的3D形状和纹理。该框架包括3D形状生成和纹理生成。(1) 3D形状生成管道采用变分自编码器(VAE)将隐式的3D几何编码到潜空间，采用扩散网络根据输入提示生成条件化的潜变量，并进行了改进以增强模型容量。还探索了一种艺术家创建的网格(AM)生成方法，在处理简单几何形状方面取得了令人鼓舞的结果。(2) 纹理生成涉及一个多阶段过程，包括生成正面图像、生成多视图图像、RGB到PBR纹理转换以及高分辨率多视图纹理细化。在每个阶段插入了一个一致性调度器，在推理过程中确保多视图纹理之间的一致性，从而确保无缝集成。管道展示了对多种输入格式的有效处理，利用先进的神经架构和新颖的方法产生高质量的3D内容。本报告详细说明了系统的体系结构、实验结果以及改进和扩展框架的潜在未来方向。源代码和预训练权重可在以下网址获得：\url{https://github.com/Tencent/Tencent-XR-3DGen}。

发布时间: 2/21/2025

查看原文

基于占用的街道高斯模型：面向自动驾驶的 OG-Gaussian

作者: Yedong Shen, Xinran Zhang, Yifan Duan, Shiqi Zhang, Heng Li, Yilong Wu, Jianmin Ji, Yanyong Zhang

arXiv:2502.14235v1 交叉类型: cross 摘要: 准确且现实的3D场景重建使得自动驾驶模拟环境的逼真创建成为可能。随着3D高斯点云(3DGS)技术的进步，以往的研究将3DGS应用于重建复杂的动态驾驶场景。这些方法通常需要昂贵的激光雷达传感器和动态对象的预先标注数据集。为了解决这些挑战，我们提出了一种名为OG-Gaussian的新型方法，该方法使用Occupancy Prediction Network (ONet)从全景摄像头图像生成Occupancy Grids (OGs)来替代激光雷达点云。我们的方法利用OGs中的语义信息将动态车辆与静态街道背景分离，将这些网格转换为重建静止和动态对象的两个独立点云集合。此外，我们通过基于学习的方法估计动态物体的轨迹和姿态，从而消除复杂的手动标注需求。在Waymo Open数据集上的实验表明，OG-Gaussian在重建质量和渲染速度方面与当前最先进的技术持平，实现了平均PSNR为35.13和渲染速度为143 FPS，同时显著降低了计算成本和经济负担。

发布时间: 2/21/2025

查看原文

SleepGMUformer：一种门控多模态时间神经网络用于睡眠分期

作者: Chenjun Zhao, Xuesen Niu, Xinglin Yu, Long Chen, Na Lv, Huiyu Zhou, Aite Zhao

arXiv:2502.14227v1 交叉公告类型摘要：睡眠分期是评估睡眠质量和诊断睡眠障碍的关键方法。然而，当前的深度学习方法面临挑战：1) 后融合技术忽略了不同模态的变异性贡献；2) 未经处理的睡眠数据会干扰频域信息。为了解决这些问题，本文提出了一种门控多模态时序神经网络，用于WristHR-Motion-Sleep和SleepEDF-78等多领域睡眠数据，包括心率、运动、步数、EEG（Fpz-Cz, Pz-Oz）和EOG。该模型整合了：1) 一个预处理模块，用于特征对齐、缺失值处理和EEG脱趋势；2) 一个特征提取模块，用于时域中的复杂睡眠特征提取；以及3) 一个动态融合模块，用于实时模态加权。实验结果显示，SleepEDF-78数据集的分类准确率为85.03%，WristHR-Motion-Sleep数据集的分类准确率为94.54%。该模型适用于异构数据集，并在现有最佳模型的基础上提升了1.00%至4.00%的性能。

发布时间: 2/21/2025

查看原文

增强 pavements 传感器数据采集以驱动人工智能交通运输研究

作者: Manish Kumar Krishne Gowda, Andrew Balmos, Shin Boonam, James V. Krogmeier

arXiv:2502.14222v1 交叉发布类型：交叉摘要：有效的传感器数据管理策略对于推进交通研究至关重要，尤其是在当前数据驱动的时代，因为人工智能领域出现了诸多新应用。本文提出了全面的指导方针，涵盖交通传感器的存档静态数据和实时数据流的管理。实时系统架构将各种应用与数据采集系统（DAQ）集成在一起。通过部署自研的开源Avena软件平台以及NATS消息系统作为安全通信代理，确保可靠的数据交换。健壮的数据库如TimescaleDB促进了有序存储，而可视化平台如Grafana提供了实时监控功能。相比之下，静态数据标准解决了处理无结构、大量数据集的挑战。这些标准提倡使用成本效益高的批量云存储来存储未经处理的传感器数据，并使用关系型数据库记录总结分析。它们强调了使用类似FME的云数据传输工具以高效方式将传感器数据从本地存储迁移至云的重要性。此外，将稳健的可视化工具集成到框架中，有助于从这些复杂数据集中推导出模式和趋势。提议的应用于INDOT的现实世界案例研究，涉及I-65和I-69 Greenfield地区。对于实时数据收集，使用了Campbell Scientific DAQ系统，这使得连续生成和监测传感器指标成为可能。对于归档的I-69数据库，汇总数据存储在Oracle中，而未经处理的数据存储在SharePoint中。结果强调了所提指南的有效性，并激发了其在研究项目中的应用。

发布时间: 2/21/2025

查看原文

从集合学习视角重新思考脉冲神经网络

作者: Yongqi Ding, Lin Zuo, Mengmeng Jing, Pei He, Hanpu Deng

arXiv:2502.14218v1 宣告类型: cross 摘要: 脉冲神经网络（SNNs）表现出卓越的能源效率，但性能有限。在这篇论文中，我们将SNNs视为具有共享架构和权重的时间子网络集合，并强调一个严重影响其性能的关键问题：时间步骤之间神经膜电位初始状态的显著差异导致子网络输出不稳定，从而导致性能下降。为了解决这个问题，我们通过膜电位平滑以及时间相邻子网络的引导来促进膜电位分布的一致性和输出的一致性，以提高整体稳定性和性能。此外，膜电位平滑有助于信息的前向传播和梯度的后向传播，缓解了著名的梯度消失时间问题。我们的方法仅需要对脉冲神经元进行轻微修改，而不改变网络结构，从而使得我们的方法具有通用性，并且在1D语音、2D物体和3D点云识别任务中表现出一致性的性能提升。特别是，在具有挑战性的CIFAR10-DVS数据集中，我们仅使用四个时间步骤就达到了83.20％的准确性。这为我们释放SNNs的潜力提供了宝贵的见解。

发布时间: 2/21/2025

查看原文

面向智能合约的安全程序分割，基于LLM的上下文学习

作者: Ye Liu, Yuqing Niu, Chengyan Ma, Ruidong Han, Wei Ma, Yi Li, Debin Gao, David Lo

arXiv:2502.14215v1 通报类型: 横跨领域摘要：由于敏感信息泄露，智能合约极易受到操纵攻击的影响。解决操纵漏洞尤其具有挑战性，因为这些问题源自于数据保密性的固有问题，而非简单的实现错误。为了通过防止敏感信息泄露来应对这一问题，我们提出了PartitionGPT，这是一种首次将静态分析与大语言模型（LLMs）的上下文学习能力结合起来的方法，用于将智能合约划分为特权代码库和普通代码库，同时由少量注释过的敏感数据变量进行引导。我们在18个包含99个敏感函数的注释智能合约上评估了PartitionGPT。结果显示，PartitionGPT成功为78%的敏感函数生成了可编译且验证过的分区，同时相比基于函数级别的分区方法减少了约30%的代码。此外，我们在九种导致2500万美元总损失的真实世界操纵攻击上评估了PartitionGPT，结果显示PartitionGPT有效地防止了八种攻击情况，这突显了其在广泛适用性方面的潜力以及在智能合约开发过程中进行安全程序划分以减少操纵漏洞的必要性。

发布时间: 2/21/2025

查看原文

异质联邦连续学习中的精准遗忘

作者: Abudukelimu Wuerkaixi, Sen Cui, Jingfeng Zhang, Kunda Yan, Bo Han, Gang Niu, Lei Fang, Changshui Zhang, Masashi Sugiyama

arXiv:2502.14205v1 宣告类型: cross 摘要：近年来，联邦学习（FL）引起了广泛关注。然而，客户端在顺序学习中所处的环境仍较少被探讨。将联邦学习与连续学习（CL）相结合，引发了具有挑战性的实际问题：联邦连续学习（FCL）。现有的FCL研究主要集中在缓解连续学习中的灾难性遗忘问题，同时与其他客户端协作。我们认为遗忘现象不总是负面的。在本文中，我们考虑了一个更加实际且具有挑战性的FCL设置，其中不同客户端之间可能存在相关性或甚至是对立的数据/任务。在联邦学习场景中，客户端之间的统计异质性和数据噪声可能会表现出虚假的相关性，导致有偏的特征学习。现有的CL策略主要关注充分利用先前的知识，而我们发现，在我们的研究中，忘记有偏信息是有益的。因此，我们提出了一种新的准确遗忘（AF）概念，并开发了一种新颖的生成重放方法~\method~，该方法在联邦网络中选择性地利用先前的知识。我们基于正态流模型的概率框架来量化先前知识的可信度。全面的实验表明，我们的方法优于基准方法。

发布时间: 2/21/2025

查看原文

基于原则引导解码的即时偏好对齐

作者: Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo, Zhendong Mao

arXiv:2502.14204v1 Announce Type: cross 摘要：随着大型语言模型的迅速扩展，将模型生成与人类价值观和偏好对齐变得越来越重要。流行的对齐方法，如基于人类反馈的强化学习，已经在指导更具控制力的模型方面取得了显著成功。然而，这些方法需要大量的计算资源，这很不高效，并且需要大量的训练数据来适应人类偏好多样化和包容性，这在实践中是不现实的。这些限制显著限制了任务特定和一般偏好对齐方法的范围和有效性。在本文中，我们引入了一种称为基于原则导向解码的即时偏好对齐方法（OPAD），该方法在推理过程中直接将模型输出与人类偏好对齐，从而消除了微调的需要。我们的方法首先对一个原本不可行的优化问题构建一个替代解，并基于此替代解设计一个原则导向的奖励函数。最终对齐的策略通过最大化这种定制化的奖励来推导，以利用受限策略与其无约束版本之间的差异。OPAD 在推理过程中直接修改模型的预测，确保遵循原则，而无需对模型进行重新训练或微调带来的计算成本。实验表明，OPAD 在通用和个性化对齐任务中都能实现竞争力甚至更优的性能，相对于最先进的基准方法，这展示了其高效性和效果。

发布时间: 2/21/2025

查看原文

大型语言模型考虑安全问题吗？关于对编程问题回应的实证研究

作者: Amirali Sajadi, Binh Le, Anh Nguyen, Kostadin Damevski, Preetha Chatterjee

arXiv:2502.14202v1 安全公告类型: 交叉摘要：面向软件开发的交流式大语言模型（conversational LLMs）的广泛应用引发了关于大语言模型生成内容安全性的新担忧。我们的动机研究概述了ChatGPT在提供上下文相关信息方面的潜力，以促进安全编码实践。受此发现的启发，我们进行了一项研究，以评估Claude 3、GPT-4和Llama 3三种主流大语言模型的安全意识程度。我们向这些大语言模型提供了包含漏洞代码的Stack Overflow问题，以评估它们是否只是回答问题，还是同时警告用户有关不安全代码的信息，从而展示一定程度的安全意识。此外，我们评估大语言模型的响应是否提供了漏洞的原因、利用和潜在修复信息，以帮助提高用户的意识。我们的研究结果表明，这三种模型在准确检测和警告用户关于漏洞方面都存在困难，在我们的数据集中，检测率仅为12.6%至40%。我们还观察到，大语言模型比其他类型更频繁地识别出与敏感信息暴露和不当输入中和相关的某些类型的漏洞。此外，当大语言模型发出安全警告时，它们往往提供比Stack Overflow回答更多的关于漏洞的原因、利用和修复的信息。最后，我们对研究结果的影响进行了深入讨论，并呈现了一个基于命令行界面的提示工具，可用于生成更有安全保障的大语言模型响应。

发布时间: 2/21/2025

查看原文