arXiv 论文列表

作者: Feiyu Lu, Mengyu Chen, Hsiang Hsu, Pranav Deshpande, Cheng Yao Wang, Blair MacIntyre

arXiv:2504.21731v1 交叉公告类型摘要：混合现实(MR)可以通过持续地将虚拟内容与用户的物理环境视图相结合来辅助用户的任务。然而，由于MR体验的动态性质，最佳地放置这些内容以支持用户的问题仍然具有挑战性。与之前研究基于优化的方法不同，我们正在探索强化学习(RL)如何辅助持续的3D内容放置，同时考虑到用户的姿态及其周围的环境。通过初步探索和初步评估，我们的结果表明，RL有潜力将内容放置在移动中的用户可以获得最大奖励的位置。我们进一步指出了未来研究的方向，这些研究可以利用RL的力量来实现个性化和优化的UI及内容在MR中的放置。

发布时间: 5/1/2025

查看原文

Cert-SSB：朝向认证的样本特定后门防御

作者: Ting Qiao, Yingjia Wang, Xing Liu, Sixing Wu, Jianbing Li, Yiming Li

arXiv:2504.21730v1 攻击类型：交叉摘要：深度神经网络（DNNs）容易受到后门攻击，攻击者通过操控一部分训练数据来植入隐藏的后门到模型中。被篡改的模型在干净样本上的表现正常，但在后门样本上将其分类为攻击者指定的目标类，这给实际的DNN应用带来了重大威胁。目前，已经提出了几种经验防御方法来缓解后门攻击，但它们往往被更高级的后门技术绕过。相比之下，基于随机平滑的认证防御表明有希望通过向训练和测试样本添加随机噪声来对抗后门攻击。在本文中，我们揭示了一个现有的随机平滑防御隐含地假设所有样本与决策边界具有相同的距离，但在实践中这可能不成立，导致认证性能不佳。为了解决这一问题，我们提出了一种样本特定的认证后门防御方法，称为Cert-SSB。Cert-SSB首先使用随机梯度上升来优化每个样本的噪声幅度，确保针对每个样本的特定噪声水平，然后应用于多个中毒训练集以重新训练多个平滑模型。之后，Cert-SSB将多个平滑模型的预测聚合以生成最终的鲁棒预测。特别地，在这种情况下，现有的认证方法变得不适用，因为优化的噪声在不同样本之间会有所不同。为了克服这一挑战，我们引入了一种基于存储更新的认证方法，该方法动态调整每个样本的认证区域以提高认证性能。我们在多个基准数据集上进行了广泛实验，证明了我们提出方法的有效性。我们的代码可在https://github.com/NcepuQiaoTing/Cert-SSB获取。

发布时间: 5/1/2025

查看原文

Sionna RT：技术报告

作者: Fay\c{c}al A\"it Aoudia, Jakob Hoydis, Merlin Nimier-David, Sebastian Cammerer, Alexander Keller

arXiv:2504.21719v1 Announce Type: cross 摘要：Sionna 是一个开源的 GPU 加速库，自 0.14 版本起，它包含了一个用于模拟射频波传播的射线追踪器。Sionna RT 的一个独特特点是可微性，这使得可以计算通道冲激响应 (CIR)、射电图和其他相关度量相对于系统和环境参数（如材料属性、天线模式和阵列几何）的梯度。Sionna 1.0 的发布对射线追踪器进行了彻底的重新设计，显著提高了其速度、内存效率和可扩展性。本文详细介绍了 Sionna RT 用于高效模拟射频波传播的算法，同时也指出了它们目前的局限性。由于 CIR 和射电图的计算需要不同的算法，它们分别在不同的部分进行了详细说明。对于 CIR，Sionna RT 将射线追踪的射击与反弹方法（SBR）与图像方法相结合，并采用基于哈希的机制来高效消除重复路径。射电图是通过纯粹基于 SBR 的方法来计算的。

发布时间: 5/1/2025

查看原文

基于LLM增强的具身代理在家庭机器人领域中的记忆增强任务规划

作者: Marc Glocker, Peter H\"onig, Matthias Hirschmanner, Markus Vincze

arXiv:2504.21716v1 Announce Type: cross 摘要：我们提出了一种受身体约束的机器人系统，该系统具有由LLM驱动的作业调度架构，以实现自主家庭物体管理。该系统整合了记忆增强的任务规划，使机器人能够在跟踪过去行动的同时执行高级用户命令。该系统采用了三个专门的代理：路由代理、任务规划代理和知识库代理，每个代理都由任务特定的LLM提供动力。通过利用上下文学习，我们的系统避免了显式模型训练的需要。RAG使系统能够从过去的交互中检索上下文，从而增强长期物体跟踪。Grounded SAM和LLaMa3.2-Vision的结合提供了稳健的物体检测，有助于任务规划中的语义场景理解。在三个家庭场景中的评估显示了高任务规划准确性，并且由于RAG，记忆召回率有所提高。具体来说，Qwen2.5在专门的代理方面表现出最佳性能，而LLaMA3.1在路由任务方面表现出色。源代码可在以下网址获得：https://github.com/marc1198/chat-hsr。

发布时间: 5/1/2025

查看原文

递归KL散度优化：一种动态的表示学习框架

作者: Anthony D Martin

arXiv:2504.21707v1 交叉类型摘要：我们通过将现代表示学习目标重新定义为局部条件分布之间的递归发散对齐过程，提出了现代表示学习目标的一般化。尽管最近的框架如信息对比学习I-Con通过固定邻域条件间的KL散度统一了多种学习范式，我们认为这种观点忽视了学习过程中固有的关键递归结构。我们提出了递归KL散度优化（RKDO）这一动态形式，其中表示学习被框架为KL散度在数据邻域间演化的过程。这种表述捕捉了对比聚类和降维方法的静态切片，同时提供了一条新的模型稳定性和局部适应性路径。我们的实验表明，与静态方法相比，RKDO在三个不同数据集上损失值约低30%，在实现相近结果所需计算资源方面最多减少60%到80%。这表明RKDO的递归更新机制为表示学习提供了更高效的优化景观，对资源受限的应用具有重要意义。

发布时间: 5/1/2025

查看原文

精准农业中的视觉变换器：一篇全面综述

作者: Saber Mehdipour, Seyed Abolghasem Mirroshandel, Seyed Amirhossein Tabatabaei

arXiv:2504.21706v1 交叉公告类型：cross 摘要：检测植物病害是现代农业的关键方面——它在保持作物健康和提高总体产量方面发挥着重要作用。传统方法尽管仍然有价值，但往往依赖于人工检查或传统的机器学习技术，这两种方法在可扩展性和准确性方面都存在局限性。近年来，视觉Transformer（ViTs）作为一种有前途的替代方案出现，提供了诸如改进的长距离依赖处理能力和更好的视觉任务可扩展性等优势。本文综述了ViTs在精准农业中的应用，涵盖了从分类到检测和分割的任务。我们首先介绍了ViTs的基本架构，并讨论了它们如何从自然语言处理（NLP）过渡到计算机视觉。讨论包括传统模型如卷积神经网络（CNNs）中的归纳偏见的概念，以及ViTs如何缓解这些偏见。我们提供了最近文献的全面综述，重点关注关键方法、数据集和性能指标。综述还对CNNs和ViTs进行了比较分析，探讨了混合模型和性能增强。讨论了技术挑战，如数据需求、计算成本和模型可解释性，以及潜在的解决方案。最后，我们概述了未来的研究方向和技术进步，这些都可能进一步支持ViTs在真实农业环境中的应用整合。我们的目标是通过这项研究为从业者和研究人员提供对ViTs如何有望变革智能和精准农业的更深刻理解。

发布时间: 5/1/2025

查看原文

解释可及的人工智能：破解大语言模型的限制

作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Vinod P

arXiv:2504.21700v1 宣布类型: cross 摘要：大型语言模型是现代由AI解决方案主导的IT景观中的基本行为体。然而，与它们相关联的安全威胁可能会阻碍它们在政府组织和医疗机构等关键应用场景中的可靠采用。为此，商业LLM通常会经历复杂的过滤机制，以消除它们可能产生的任何有害输出。针对这种情况，LLM脱狱是这种保护的重大威胁，而且此前已经有许多方法在此方面证明了其有效性。现有的脱狱提案大多采用生成和测试策略来制定恶意输入。为了提高对过滤机制的理解并设计有针对性的脱狱攻击，我们提出了一种可解释的AI解决方案，该解决方案通过比较分析受过滤和未受过滤模型的行为来推导出独特的可利用对齐模式。然后，我们提出了XBreaking，一种新颖的脱狱攻击，通过有针对性的噪声注入利用这些独特的模式来突破LLM的安全约束。我们的彻底实验活动提供了关于过滤机制的重要见解，并展示了我们攻击的有效性和性能。

发布时间: 5/1/2025

查看原文

单目视觉无人机模型的自我监督识别通过改进遮挡处理

作者: Stavrow A. Bahnam, Christophe De Wagter, Guido C. H. E. de Croon

arXiv:2504.21695v1 宣告类型：交叉摘要：在GPS受限环境中飞行时，自我运动估计对于无人机至关重要。基于视觉的方法在飞行速度增加以及近距离对象导致难以观察的视觉条件（包括显著的运动模糊和大面积遮挡）时会遇到困难。为解决这一问题，通常会通过结合无人机模型和惯性测量来补充视觉数据，使用来自外部动作捕捉系统的地面真实数据进行监督学习，这一方法限制了该模型在不同环境和不同类型无人机上的可扩展性。在此工作中，我们提出了一种自我监督学习方案，仅使用机载单目视频和飞行控制器数据（IMU和电机反馈）训练基于神经网络的无人机模型。我们首先训练了一个自我监督的姿态相对估计模型，该模型作为教师模型来指导无人机模型。为了使这种方法能够在接近障碍物时以高速运行，我们提出了一种改进的遮挡处理方法，用于训练自我监督的姿态估计模型。由于这种方法，所得的位姿估计的均方根误差平均降低了15%。此外，可以从机载数据成功训练出学生神经无人机模型。即使在其教师，自我监督的基于视觉的模型中，该模型在更高速度下也能表现出更高的准确性。通过将神经无人机模型整合到传统的基于滤波的VIO系统（ROVIO）中，我们证明了该模型在接近障碍物的激烈3D赛道上的优越位姿估计精度。自我监督学习的自我运动估计代表了从控制的、昂贵的实验室环境过渡到真实世界无人机应用的重要步骤。结合视觉和无人机模型将使无人机能够在任何环境中以更高速度飞行并提高状态估计的准确性。

发布时间: 5/1/2025

查看原文

增强基于动态记忆预测的自监督细粒度视频对象跟踪

作者: Zihan Zhou, Changrui Dai, Aibo Song, Xiaolin Fang

arXiv:2504.21692v1 交叉类型公告摘要：成功的视频分析依赖于对帧间像素进行准确识别，基于视频对应学习的帧重建方法因其高效性而广受欢迎。现有的帧重建方法虽然高效，但在复杂情况下（如遮挡或快速移动）忽视了多个参考帧直接参与重建和决策方面的价值。在本文中，我们提出了一种动态记忆预测（DMP）框架，该框架创新地利用多个参考帧来简洁且直接地增强帧重建。其核心组件是依据对象像素特征动态选择帧的参考帧记忆引擎，以提高跟踪准确性。此外，我们构建了一个双向目标预测网络，利用多个参考帧来提高模型的鲁棒性。通过实验，我们的算法在两个细粒度的视频对象跟踪任务：对象分割和关键点跟踪上优于最先进的自监督技术。

发布时间: 5/1/2025

查看原文

增强健康提及分类性能：关于参数高效调优进展的研究

作者: Reem Abdel-Salam, Mary Adewunmi

arXiv:2504.21685v1 声称类型: cross 摘要：健康提及分类（HMC）在利用社交媒体帖子进行实时跟踪和公共卫生监测方面发挥着至关重要的作用。然而，由于其复杂性，尤其是由于健康提及的语言上下文方面，例如隐喻语言和描述性术语，并非明确反映个人病痛的原因，HMC 过程面临着重大挑战。为了解决这一问题，我们认为，可以通过增强生物医学自然语言处理方法（NLP）的参数进行常规微调，来实现更清晰的提及。在本研究中，我们探索了不同的技术，如利用词性标注器信息，改进 PEFT 方法，并结合这些方法的不同组合。在三个广泛使用的数据集 RHDM、PHM 和 Illness 上进行了广泛的实验。结果表明，结合词性标注器信息和利用 PEFT 技术在所有三个数据集中比最先进的方法在 F1 分数方面显著提高了性能，同时使用了较小的模型和高效的训练。此外，研究结果强调了结合词性标注器信息和利用 PEFT 技术在 HMC 中的有效性。总之，所提出的 methodology 提出了一个有潜力的有效方法，可以在优化模型大小和训练效率的同时准确分类社交媒体帖子中的健康提及。

发布时间: 5/1/2025

查看原文