arXiv 论文列表

作者: Botian Xu, Haoyang Weng, Qingzhou Lu, Yang Gao, Huazhe Xu

arXiv:2505.06883v1 类型: cross 摘要：强化学习（RL）在腿部机器人控制领域取得了显著进展，使机器人能够在多变地形上进行自主移动，并具备复杂的操作能力。然而，常用的基于位置或速度跟踪的目标忽略了机器人所经历的力量，导致了僵硬且可能危险的行为，并在力量交互中表现出不良的控制性能。为解决这一限制，我们提出了一种名为“阻抗参考跟踪下的力自适应控制”（FACET，Force-Adaptive Control via Impedance Reference Tracking）的方法。受阻抗控制的启发，我们使用RL训练一个控制策略来模仿虚拟的质-弹簧-阻尼系统，从而通过调整虚拟弹簧来实现对外部力作用下的细粒度控制。在仿真中，我们展示了我们的四足机器人在面对高达200 Ns的大冲量时表现出更好的鲁棒性，并展示了可控的顺应性，实现了碰撞冲量减少80%。该策略被部署到一个物理机器人中，展示了顺应性和通过感觉运动控制与大力交互以及搬运其自身重量三分之二的载荷的能力。进一步将该方法扩展到腿部操作机器人和类人机器人，展示了我们的方法在更复杂环境中的应用，以实现整体顺应性控制。项目网站：https://egalahad.github.io/facet/

发布时间: 5/13/2025

查看原文

NeuRN: 神经启发的领域泛化图像分类

作者: Hamd Jalil, Ahmed Qazi, Asim Iqbal

arXiv:2505.06881v1 宣告类型: cross 摘要: 图像分类中的领域泛化是一个关键性的挑战，模型常常无法很好地泛化到未见过的数据集上。我们通过引入灵感源自哺乳动物视觉皮层神经元的神经启发式神经响应归一化（NeuRN）层来解决这一问题，旨在通过在源域上训练深度学习模型来增强这些模型在未见过的目标域上的性能。这些模型的性能被用作基线，然后与集成NeuRN的模型在图像分类任务上进行比较。我们在包括来自神经架构搜索和视觉变换器导出的多种深度学习架构上进行了实验。此外，为了从大量已经显示出良好结果的深度神经网络中筛选出适合我们实验的模型，我们还提出了一种新的方法，使用Needleman-Wunsch算法来计算深度学习架构之间的相似性。我们的结果通过在跨域图像分类任务中显示基线性能的改进，证明了NeuRN的有效性。我们的框架试图为未来的神经启发式深度学习模型奠定基础。

发布时间: 5/13/2025

查看原文

通过ARIMA和多项式分类器并行杂化增强时间序列预测

作者: Thanh Son Nguyen, Van Thanh Nguyen, Dang Minh Duc Nguyen

arXiv:2505.06874v1 类型: cross 摘要：时间序列预测引起了广泛关注，导致开发了广泛的方法，从传统的统计方法到先进的深度学习模型。其中，由于其在建模经济、工业和社会数据中的时间依赖性的有效性，自回归整复合移动平均（ARIMA）模型仍然是广泛应用的线性技术。另一方面，多项式分类器提供了一种稳健的框架来捕捉非线性关系，并在股票价格预测等领域展示了竞争力。在本研究中，我们提出了一种将ARIMA模型与多项式分类器结合的混合预测方法，以利用两种模型的互补优势。该混合方法在多个涵盖不同领域的实际时间序列数据集上进行了评估。性能评估基于预测准确性及计算效率。实验结果表明，与单独的模型相比，提出的混合模型在预测准确性方面始终表现出更优性能，尽管执行时间略微增加。

发布时间: 5/13/2025

查看原文

通过潜在空间反向规划实现高效的机器人策略学习

作者: Dongxiu Liu, Haoyi Niu, Zhihao Wang, Jinliang Zheng, Yinan Zheng, Zhonghong Ou, Jianming Hu, Jianxiong Li, Xianyuan Zhan

arXiv:2505.06861v1 交叉类型: cross 摘要: 当前的机器人规划方法经常依赖于预测多帧的完整像素细节图像。虽然这种精细的方法可以作为一个通用的世界模型，但它为下游策略学习引入了两个重大挑战：高昂的计算成本限制了实时部署，以及累积的不准确性可能导致对行动提取的误导。使用粗略粒度的子目标部分缓解了效率问题。然而，它们的前瞻性规划方案仍然会由于累积错误而导致任务脱轨的预测，从而与长期目标产生偏差。这提出了一个关键问题：机器人规划能否在长期多阶段任务中既高效又足够准确，以实现实时控制？为了解决这一问题，我们提出了一种潜在空间反向规划方案(LBP)，该方案首先将任务接地为最终的潜在目标，然后递归预测更接近当前状态的中间子目标。接地的最终目标使反向子目标规划始终保持对任务完成的意识，从而在整个规划时域内促进任务相关的预测。基于子目标的策略结合了一个可学习的标记来总结子目标序列，并决定每个子目标如何指导行动提取。通过广泛的仿真和实际机器人长期实验，我们展示了LBP优于现有的精细和前瞻性规划方法，实现了SOTA性能。项目页面: https://lbp-authors.github.io

发布时间: 5/13/2025

查看原文

DP-TRAE：双阶段合并可转移可逆对抗样本用于图像隐私保护

作者: Xia Du, Jiajie Zhu, Jizhe Zhou, Chi-man Pun, Zheng Lin, Cong Wu, Zhe Chen, Jun Luo

arXiv:2505.06860v1 安全性类型: 横向摘要：在数字安全领域，可逆对抗样本（RAE）结合了对抗攻击与可逆数据隐藏技术，有效地保护敏感数据，并防止恶意深度神经网络（DNN）进行未经授权的分析。然而，现有的RAE技术主要关注白盒攻击，缺乏对它们在黑盒场景下效果的全面评估。这一局限性阻碍了它们在复杂动态环境中的广泛应用。此外，传统的黑盒攻击通常具有较差的迁移性且查询成本高，极大地限制了其实用性。为了应对这些挑战，我们提出了双阶段合并可迁移可逆攻击方法，该方法在白盒模型中生成高迁移性的初始对抗扰动，并使用增强记忆的黑盒策略有效地误导目标模型。实验结果表明，我们的方法在黑盒场景中的优越性，取得了99.0%的攻击成功率和100%的恢复率，突显了其在隐私保护方面的稳健性。此外，我们成功地对一个商业模型实施了黑盒攻击，进一步证实了该方法在实际应用中的潜力。

发布时间: 5/13/2025

查看原文

使用微调的LLM优化推荐系统

作者: Prabhdeep Cheema, Erhan Guven

arXiv:2505.06841v1 类型: cross 摘要: 随着数字媒体平台力求满足不断变化的用户期望，提供高度个性化和直观的电影和媒体推荐已成为吸引和保留观众的关键。传统系统往往依赖于基于关键词的搜索和推荐技术，这使得用户局限于特定的关键词及其组合。本文提出了一种方法，通过建模真实世界的用户互动来生成合成数据集，从而创建反映出各种偏好的复杂聊天式数据。这使用户能够在传统的基于类型、标题和演员的查询之外，表达更为复杂且多变的偏好，比如情绪、情节细节和主题元素。当今的搜索空间中，用户不能编写这样的查询：“寻找一部包含Dire Wolf的作品的奇幻电影，最好设定在一个严苛冰冷的世界里，主题是忠诚与生存。” 基于这些贡献，我们评估了合成数据集在训练和基准测试模型方面的多样性和有效性，特别是在传统数据集通常缺失的领域。这种方法通过使用户能够提出表达性和自然的查询，从而增强个性化和准确性。它为下一代基于对话式AI的搜索和推荐系统奠定了基础，在数字娱乐领域具有重要意义。

发布时间: 5/13/2025

查看原文

细粒度专家的强大之处：粒度提升了专家混合模型的表达能力

作者: Enric Boix-Adsera, Philippe Rigollet

arXiv:2505.06839v1 声明类型: cross 摘要：专家混合（Mixture-of-Experts，MoE）层在前沿模型架构中变得越来越重要。通过选择性激活参数，它们在增加总参数数量的同时降低了计算成本。本文研究了活跃专家数量（称为粒度）对该设计参数的影响，将具有许多活跃专家（例如，在DeepSeek中每层8个）的架构与具有较少活跃专家（例如，在Llama-4模型中每层1个）的架构进行了比较。我们根据该设计参数证明了网络表达能力的指数级差异，表明模型从更高的粒度中受益。实验结果证实了我们的理论发现，并展示了这种差异。

发布时间: 5/13/2025

查看原文

风暴中的沙铸堡：回顾强水印的（不）可能xing

作者: Fabrice Y Harel-Canada, Boran Erol, Connor Choi, Jason Liu, Gary Jiarui Song, Nanyun Peng, Amit Sahai

arXiv:2505.06827v1 交叉类型摘要：对AI生成文本进行水印是打击滥用的关键。然而，最近的理论工作认为，任何水印都可以通过扰动文本以保持质量的随机漫步攻击被擦除。然而，这样的攻击依赖于两个关键假设：(1) 快速混合（水印在扰动下迅速消失），(2) 可靠的质量保存（自动质量指南在引导编辑时完全可靠）。通过大规模实验和人验证评估，我们发现混合过程是缓慢的：在数百次编辑后，100%的扰动文本仍然保留着它们来源的痕迹，这违背了快速混合的假设。质量指南失效了，因为最先进的质量检测器在判断编辑时出错(准确度为77%)，在攻击中加剧了错误。最终，攻击效果不佳：自动化的行走过程只能在26%的情况下去除水印——在人类质量审查下这一比例降至10%。这些发现挑战了水印去除的不可避免性。相反，实际障碍——缓慢的混合和不完美的质量控制——表明水印标记比理论模型所暗示的要更加 robust。理想的攻击和现实可行性之间的差距凸显了需要更强的水印方法和更现实的攻击模型的必要性。

发布时间: 5/13/2025

查看原文

威胁透镜：LLM 辅导的硬件安全验证威胁建模和测试计划生成

作者: Dipayan Saha, Hasan Al Shaikh, Shams Tarek, Farimah Farahmandi

arXiv:2505.06821v1 安全类型：跨领域摘要：当前的硬件安全验证过程主要依赖于手动威胁建模和测试计划生成，这耗时、容易出错，并且难以应对设计复杂度的增加和攻击方法的演变。为了解决这些问题，我们提出了一种基于LLM的多代理框架ThreatLens，用于硬件安全验证中的自动安全威胁建模和测试计划生成。ThreatLens结合了检索增强生成（RAG）来提取相关的安全知识、基于LLM的推理进行威胁评估，并通过交互式用户反馈来确保生成的测试计划的实用性。通过自动化这些过程，该框架减少了手动验证的工作量，提高了覆盖面，并确保了一种结构化且可适应的安全验证方法。我们在NEORV32 SoC上评估了该框架，证明了其通过结构化的测试计划进行自动安全验证的能力，并验证了其在实际场景中的有效性。

发布时间: 5/13/2025

查看原文

NLPCC 2025 共享任务 4 概览：多模态、多语言和多跳医疗 instructional 视频问答挑战

作者: Bin Li, Shenxi Liu, Yixuan Weng, Yue Du, Yuhang Tian, Shoujun Zhou

arXiv:2505.06814v1 宣告类型: cross 摘要: 在成功举办第1届(NLPCC 2023 佛山)CMIVQA和第2届(NLPCC 2024 杭州)MMIVQA挑战之后，今年引入了一个新的任务，以进一步推动多模态、多语言和多跳医疗教学问答(M4IVQA)系统的研究，重点关注医疗教学视频。M4IVQA挑战侧重于评估能够整合医疗教学视频信息、理解多种语言并回答需要在多种模态上进行推理的多跳问题的模型。该任务包括三个轨道：多模态、多语言和多跳单视频时间答案定位(M4TAGSV)、多模态、多语言和多跳视频数据集检索(M4VCR)和多模态、多语言和多跳视频数据集时间答案定位(M4TAGVC)。M4IVQA参赛者被期望开发能够在处理视频和文本数据、理解多语言查询并提供与多跳医疗问题相关答案方面表现出色的算法。我们相信新引入的M4IVQA挑战将推动医疗保健场景中的多模态推理系统的创新，最终为多语言社区中的更智能的应急响应系统和更有效的医疗教育平台作出贡献。我们的官方网站是<https://cmivqa.github.io/>。

发布时间: 5/13/2025

查看原文