arXiv 论文列表

作者: Ningyuan Yang, Jiaxuan Gao, Feng Gao, Yi Wu, Chao Yu

arXiv:2505.10482v1 类型: cross 摘要: 扩散策略在机器人学、游戏和自主驾驶等决策场景中广泛应用，由于其强大的表示能力，能够从演示数据中学习多样化技能。然而，演示数据的次优性和有限的覆盖率可能导致生成次优轨迹，甚至产生灾难性失败。尽管基于强化学习(RL)的微调已成为解决这些限制的有前途的解决方案，但现有的方法难以有效地将近端策略优化(PPO)适应到扩散模型中。这一挑战源于去噪过程中动作似然估计的计算不可操作性，导致复杂的优化目标。在从随机初始化的策略开始的实验中，我们发现，在线调整扩散策略的样本效率远低于直接在MLP策略上应用PPO (MLP+PPO)。为了应对这些挑战，我们引入了NCDPO，这是一种新颖的框架，将扩散策略重新表述为噪声条件下的定性策略。通过将每个去噪步骤视为在预采样噪声条件下进行的可微变换，NCDPO 使得似然性评估和所有扩散时间步的梯度反向传播变得可处理。我们的实验表明，当从零开始训练时，NCDPO 在样本效率上可以与MLP+PPO匹敌，在多种基准测试中（包括连续机器人控制和多智能体游戏场景）在样本效率和最终性能上均超过现有方法。此外，我们的实验结果表明，我们的方法对扩散策略中的去噪时间步数量具有鲁棒性。

发布时间: 5/16/2025

查看原文

叠加产生稳健的神经网络扩展

作者: Yizhou liu, Ziming Liu, Jeff Gore

arXiv:2505.10465v1 类别: cross 摘要: 今天的大规模语言模型（LLMs）的成功依赖于一个观察结果，即更大的模型表现更好。然而，这一神经缩放定律——发现损失随模型大小呈幂律减小——的起源仍然不清楚。从两条经验原则出发——即语言模型表达的东西比它们的模型维度（宽度）多（即表示是叠加的），以及语言中的单词或概念出现的频率不同——我们建立了一个玩具模型来研究损失随模型大小的变化。我们发现，当叠加作用较弱时，即仅表示最频繁的特征而未相互干扰，损失随模型大小的变化取决于底层特征频率；如果特征频率遵循幂律分布，那么损失也将遵循幂律分布。相反，在叠加作用很强的情况下，所有特征都被表示但相互重叠，损失在整个特征频率分布范围内与模型维度成反比。这种稳健的缩放行为从几何学上得到了解释：当大量向量被压缩到低维度空间时，向量之间的干扰（平方重叠）与该维度成反比。然后，我们分析了四项开源的大规模语言模型，发现它们表现出强叠加作用，并且定量地符合我们玩具模型的预测。Chinchilla缩放定律也与我们的结果一致。我们得出结论，表示叠加是观察到的神经缩放定律背后的重要的机制。我们预期这些洞察将激发新的训练策略和模型架构，从而在较少计算和更少参数的情况下实现更好的性能。

发布时间: 5/16/2025

查看原文

SEAL: 搜索可扩展架构以实现增量学习

作者: Matteo Gambella, Vicente Javier Castro Solar, Manuel Roveri

arXiv:2505.10457v1 类型: cross 摘要: 逐增量学习是一种机器学习范式，其中模型从依次流式的任务中学习。这一设置提出了一个关键挑战：平衡可塑性（学习新任务）和稳定性（保留过往知识）。神经架构搜索（NAS），作为自动化机器学习（AutoML）的一个分支，自动设计深度神经网络的架构，并在静态设置中显示出成功。然而，现有的基于NAS的方法在增量学习中通常依赖于每次任务都扩展模型，使得它们在资源受限的环境下不切实际。在本文中，我们介绍了SEAL，这是一种针对数据增量学习的NAS基础框架，这是一种不存储未来访问的数据样本的场景下，离散的数据样本依次到达。SEAL动态适应模型结构，仅在必要时扩展，基于一个容量估计指标。通过在每次扩展步骤后的交叉蒸馏训练来保持稳定性。NAS组件协同搜索最优架构和扩展策略。在多个基准测试中的实验表明，SEAL有效减少了遗忘并提高了准确性，同时保持了更低的模型大小，相比先前的方法。这些结果突显了结合NAS和选择性扩展在增量场景中实现高效、自适应学习的前景。

发布时间: 5/16/2025

查看原文

视觉语言模型在识别虚拟物体方面存在困难

作者: Tyler Tran, Sangeet Khemlani, J. G. Trafton

arXiv:2505.10453v1 说明类型: 交叉摘要: 视听语言模型(VLMs)是结合了语言和视觉编码器的AI系统，能够处理多模态输入。它们能够执行复杂的语义任务，如自动标注，但至今仍是一个开放问题，即这些AI系统在理解它们处理的图像中描绘的场景的视空间特性方面表现如何。我们认为，描述虚拟物体（这些物体在图像中没有视觉表示）可以帮助测试这些AI系统的场景理解能力。例如，一张描绘一个人站在树下的图像可以与以下提示配对：想象一下，风筝卡在了树上。理解场景的VLMs应该更新其表示并合理地推理这三个物体之间的空间关系。我们描述了对最先进的VLMs的系统评估，并展示了它们处理虚拟物体的能力是不足的。

发布时间: 5/16/2025

查看原文

大型语言模型在理解代码方面对语义保留的变异具有robust性吗？

作者: Pedro Orvalho, Marta Kwiatkowska

arXiv:2505.10443v1 Announce Type: 横向研究摘要：理解大型语言模型（LLMs）的推理和鲁棒性对于在编程任务中可靠使用它们至关重要。虽然最近的研究评估了LLMs预测程序输出的能力，但大多数研究仅侧重于这些预测的准确性，而没有评估背后的推理过程。此外，观察到在数学推理任务中，LLMs可以通过错误的逻辑得到正确的答案，这引发了对其在代码理解中类似问题的关注。在此项工作中，我们评估最先进的具有高达8亿参数的LLM是否能够对Python程序进行推理，而不仅仅是猜测。我们应用了五种语义保留的代码变异：重命名变量、镜像比较表达式、交换if-else分支、将for循环转换为while循环，以及展开循环。这些变异保持了程序的语义，但改变了其语法。我们评估了六种LLM，并使用LiveCodeBench进行人工专家分析，以评估正确的预测是否基于合理的推理。我们还在LiveCodeBench和CruxEval中评估了不同代码变异的预测稳定性。我们的研究发现，一些LLM，例如Llama3.2，在高达61%的情况下基于错误的推理产生正确的预测。此外，LLM经常在我们对代码进行变异后改变预测，这表明它们在语义理解上的鲁棒性有限。

发布时间: 5/16/2025

查看原文

交错强化学习与imitation学习用于策略微调

作者: Dechen Gao, Hang Wang, Hanchu Zhou, Nejib Ammar, Shatadal Mishra, Ahmadreza Moradipari, Iman Soltani, Junshan Zhang

arXiv:2505.10442v1 类型:交叉摘要：模仿学习（IL）和强化学习（RL）各自为机器人策略学习提供了独特的优势：IL 通过演示提供了稳定的训练，而 RL 通过探索促进了泛化。虽然现有的基于 IL 的预训练结合 RL 的微调的机器人学习方法很有前景，但在 RL 微调阶段，这种两步学习范式常常会遭受不稳定性以及样本效率差的问题。在本文中，我们引入了一种名为 IN-RIL 的方法，即交替强化学习和模仿学习，在多次 RL 更新后周期性地注入 IL 更新，从而可以从 IL 的稳定性以及专家数据的指导中受益，以更有效地在整个微调过程中进行探索。由于 IL 和 RL 涉及不同的优化目标，我们开发了梯度分离机制，以防止在微调过程中破坏性干扰的发生，通过分离可能冲突的梯度更新到正交子空间中。此外，我们进行了严谨的分析，我们的发现揭示了为什么将 IL 与 RL 交替可以稳定学习并提高样本效率。在 FurnitureBench、OpenAI Gym 和 Robomimic 三个基准测试中的 14 项机器人操作和运动任务（包括但不限于稀疏奖励和密集奖励的任务）上进行了广泛的实验，证明了 IN-RIL 可以显著提高样本效率，并在长时间和短时间任务中减轻在线微调期间的表现崩溃。IN-RIL 作为通用插件，可以与各种最先进的 RL 算法兼容，可以显著提高 RL 微调效果，例如在 Robomimic Transport 中，成功率提高了 6.3 倍，提升了 88%。项目页面：https://github.com/ucd-dare/IN-RIL。

发布时间: 5/16/2025

查看原文

PIF：通过偏好嵌入进行异常检测

作者: Filippo Leveni, Luca Magri, Giacomo Boracchi, Cesare Alippi

arXiv:2505.10441v1 Announce Type: 跨类型摘要: 我们解决了一种基于结构化模式进行异常检测的问题。为此，我们提出了一种新颖的异常检测方法，称为PIF，该方法结合了自适应隔离方法的优势与偏好嵌入的灵活性。具体地，我们建议将数据嵌入到高维空间中，在该空间中使用一种高效的树基方法PI-Forest来计算异常分数。实验证明，PIF与最先进的异常检测技术相比具有明显的优越性，并且证实PI-Forest在测量任意距离和在偏好空间中隔离点方面表现更佳。

发布时间: 5/16/2025

查看原文

基于未配对数据学习的轻量级智能手机ISP

作者: Andrei Arhire, Radu Timofte

arXiv:2505.10420v1 交叉发布类型：cross 摘要：图像信号处理器（ISP）是现代智能手机摄像头中的一个基本组件，负责将RAW传感器图像数据转换为以感知质量为重点的RGB图像。近期的研究突显了深度学习方法的潜力及其在质量上逐步接近专业级相机的能力。当开发一个学习型ISP时，一个困难且昂贵的步骤是获取像素级对齐的配对数据，这些数据将智能手机摄像头传感器捕获的RAW图像映射到高质量的参考图像。在本文中，我们通过提出一种新型的训练方法来解决这一挑战，该方法消除了直接在RAW图像和匹配内容的地面真实数据之间建立对应关系的需求。我们的非配对方法使用由多个判别器引导的多项损失函数，这些判别器处理预训练网络的特征图，以保持内容结构，同时从目标RGB数据集中学习颜色和纹理特性。使用适合于移动设备的轻量级神经网络架构作为骨干，我们在Zurich RAW to RGB和Fujifilm UltraISP数据集上评估了我们的方法。与配对训练方法相比，我们的非配对学习策略显示出强大的潜力，并在多个评估指标中实现了高保真度。代码和预训练模型可在https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data 获取。

发布时间: 5/16/2025

查看原文

生成semantic通信中关键信息嵌入的视觉保真度指标

作者: Jianhao Huang, Qunsong Zeng, Kaibin Huang

arXiv:2505.10405v1 通导类型: 跨领域摘要：基于大型人工智能（AI）模型的生成语义通信（Gen-SemCom）有望为6G网络带来变革性的范式，通过传输低维度的提示而不是原始数据来降低通信成本。然而，纯提示驱动的生成会失去细微的视觉细节。此外，目前缺乏系统性的评估指标来评估Gen-SemCom系统的性能。为了解决这些问题，我们开发了一个与关键信息嵌入（CIE）框架相结合的混合Gen-SemCom系统，其中同时提取了文本提示和语义关键特征进行传输。首先，提出了一种新颖的语义筛选方法，用于选择并传输与语义标签相关的图像的关键特征。通过整合文本提示和关键特征，接收器利用基于扩散的生成模型重建高保真图像。接下来，我们提出了生成视觉信息保真度（GVIF）指标来评估生成图像的视觉质量。通过表征图像特征的统计模型，GVIF指标量化了失真特征与原始特征之间的互信息。通过最大化GVIF指标，我们设计了一个适应信道状态的Gen-SemCom系统，能够根据信道状态自适应地控制特征体积和压缩率。实验结果验证了GVIF指标对视觉保真度的敏感性，与PSNR和关键信息体积均呈正相关。此外，优化后的系统在性能上优于基准方案，表现为更高的PSNR和更低的FID分数。

发布时间: 5/16/2025

查看原文

重新思考代码生成中大语言模型的重复问题

作者: Yihong Dong, Yuchen Liu, Xue Jiang, Zhi Jin, Ge Li

arXiv:2505.10402v1 类型: cross 摘要：随着神经语言模型的发展，代码生成的性能得到了显著提升。然而，在生成过程中重复的问题仍然存在。以往的工作主要集中在内容重复，这只是代码生成中更广泛重复问题的一小部分。一个更加普遍和具有挑战性的问题是结构重复。在结构重复中，重复的代码表现出各种模式，但具有固定的结构，这可以在语法中本原地反映出来。在这篇文章中，我们正式定义了结构重复，并提出了一种基于语法的重复惩罚方法（RPG, Repetition Penalization based on Grammar），以缓解代码生成中大规模语言模型（LLMs）的重复问题。具体而言，RPG 首先利用语法规则在代码生成过程中识别重复问题，然后战略性地降低对重复贡献的关键令牌的似然性，从而缓解代码生成中的重复问题。为了促进这项研究，我们构建了一个新的数据集 CodeRepetEval，以全面评估缓解代码生成中重复问题的方法。广泛的实验结果表明，RPG 在 CodeRepetEval 数据集以及 HumanEval 和 MBPP 基准上显著优于表现最好的基线方法，有效地减少了重复并提高了生成代码的质量。

发布时间: 5/16/2025

查看原文