arXiv 论文列表

作者: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

arXiv:2503.20783v1 宣告类型: cross 摘要: DeepSeek-R1-Zero 已经展示了大规模强化学习（RL）可以直接增强大语言模型（LLM）的推理能力，而无需监督微调。在本文中，我们通过分析其两个核心组件——基础模型和RL——来严格审视类似 R1-Zero 的训练方法。我们研究了包括 DeepSeek-V3-Base 在内的多种基础模型，以了解预训练特征如何影响RL性能。我们的分析表明，DeepSeek-V3-Base 已经表现出“顿悟时刻”，而 Qwen2.5 基础模型即使没有提示模板也展示了强大的推理能力，这可能表明预训练偏差的存在。此外，我们发现群体相对策略优化（GRPO）中存在优化偏差，训练过程中人为地增加了响应长度（尤其是错误输出）。为了解决这个问题，我们引入了 Dr. GRPO，这是一种无偏差优化方法，能够在保持推理性能的同时提高标记效率。借助这些洞察，我们提出了一种简洁的 R1-Zero 食谱，在使用 7B 基础模型的情况下实现了 AIME 2024 43.3% 的准确率，开创了新的研究前沿。我们的代码可在 https://github.com/sail-sg/understand-r1-zero 获取。

发布时间: 3/27/2025

查看原文

ADS-编辑：自主驾驶系统多模态知识编辑数据集

作者: Chenxi Wang, Jizhan Fang, Xiang Chen, Bozhong Tian, Ziwen Xu, Huajun Chen, Ningyu Zhang

arXiv:2503.20756v1 声明类型: cross 摘要：大型多模态模型（LMMs）的 recent 进展显示了在自动驾驶系统（ADS）中的潜力。然而，它们直接应用于 ADS 的能力受到诸如交通知识理解不力、复杂道路条件以及车辆多样化状态的挑战的阻碍。为了解决这些挑战，我们提出了知识编辑的方法，这使得可以在无需完全重新训练的情况下对模型的行为进行有针对性的修改。同时，我们引入了 ADS-Edit，这是一个专门为 ADS 设计的多模态知识编辑数据集，包括各种真实世界的场景、多种数据类型和全面的评估指标。我们进行了全面的实验并得出了几个有趣的结论。我们希望我们的工作能够促进知识编辑在自动驾驶领域的进一步发展。代码和数据可在 https://github.com/zjunlp/EasyEdit 中获取。

发布时间: 3/27/2025

查看原文

Reason-RFT：视觉推理的强化调优

作者: Huajie Tan, Yuheng Ji, Xiaoshuai Hao, Minglan Lin, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

arXiv:2503.20752v1 宣告类型: 交叉摘要：视觉推理能力在理解复杂多模态数据中发挥着关键作用，推动了特定领域应用和通用人工智能（AGI）的发展。现有方法通过Chain-of-Thought（CoT）监督微调提高了VLM的推理能力，使用精心标注的训练数据以增强视觉推理能力。然而，这种训练范式可能导致过度拟合和认知僵化，限制了模型在不同领域转移视觉推理技能的能力，并限制了其实用性。为了解决这些局限性，我们提出了Reason-RFT，这是一种新颖的强化微调框架，显著增强了视觉推理任务中的泛化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架：（1）使用精心整理的Chain-of-Thought（CoT）数据进行监督微调（SFT）以激活视觉语言模型（VLM）的推理潜能，随后是（2）基于Group Relative Policy Optimization（GRPO）的强化学习，生成多个推理-响应对，显著增强了视觉推理任务的泛化能力。为了评估Reason-RFT的视觉推理能力，我们构建了一个涵盖视觉计数、结构感知和空间变换的全面数据集。实验结果表明Reasoning-RFT的三个主要优势：（1）性能提升：在多个任务中达到最先进的结果，超越大多数主流开源和专有模型；（2）泛化优势：在多种任务和领域中一致保持稳健的表现，超越了替代训练范式；（3）数据效率：在少样本学习场景中表现出色，超越了基于整个数据集的SFT基线。

发布时间: 3/27/2025

查看原文

最优缩放定律：理论Transformer增强的分段MOE框架中的效率增益

作者: Soham Sane

arXiv:2503.20750v1 类别: cross 摘要：本文介绍了一种 Transformer 增强的、分段混合专家（MoE）架构的理论框架，该架构旨在提高计算效率同时保持模型可扩展性。与传统的 MoE 模型将整个标记嵌入路由到选定的专家不同，我们的方法对嵌入维度本身进行分割——将每个标记表示的片段分配给专门的专家。为了弥补标记表示的损失，我们使用预专家 Transformer 层重新计算标记之间的注意力，并减少序列长度维度。我们通过导出最优缩放定律，将专家数量与模型维度、序列长度和系统开销等因素之间的非线性关系进行了扩展。这些公式的表述提供了在给定架构和硬件约束条件下确定最优专家数量的封闭形式和数值可求解表达式。结果，我们的框架不仅为不同的架构和硬件条件下计算效率的理论边界提供了支持，还为有效扩展大型模型提供了指导性的设计选择。虽然实证验证还在进行中，但我们已在未来的实验路线图中全面介绍了评估框架效率、可扩展性和实际应用的方法。

发布时间: 3/27/2025

查看原文

单GPU上的高质量扩散蒸馏：相对和绝对位置匹配

作者: Guoqiang Zhang, Kenta Niwa, J. P. Lewis, Cedric Mesnage, W. Bastiaan Kleijn

arXiv:2503.20744v1 宣传类型: cross 摘要：我们引入了相对和绝对位置匹配（RAPM），这是一种高效的扩散蒸馏方法，可以在单个GPU上进行高效训练。最近的扩散蒸馏研究使用了阶段性一致性模型（PCM）和改进的分布匹配蒸馏（DMD2）等方法，在高分辨率的文本到图像生成方面取得了优异的结果。然而，这些方法在训练过程中通常需要大量GPU（例如8-64个）和显著的批量大小（例如128-2048），导致内存和计算需求超出了一些研究者的资源。RAPM通过使用批量大小为1的单个GPU实现了有效的扩散蒸馏训练。该新方法试图通过匹配相对和绝对位置来模仿教师模型的采样轨迹。相对位置的设计受到了PCM的启发。相应地， Rapids引入了两个判别器，一个用于匹配相对位置，另一个用于匹配绝对位置。实验结果表明，在非常有限的计算资源下，适用于StableDiffusion V1.5和SDXL的RAPM在4个时间步长下的FID分数与仅使用1个时间步长的最佳方法相当。

发布时间: 3/27/2025

查看原文

量子神经网络中的马尔可夫跳跃过程表述

作者: Z. Zarezadeh, N. Zarezadeh

arXiv:2503.20742v1 Announce Type: 横跨多个领域摘要: 尽管在探索性数据分析中存在许多挑战，但人工神经网络在理论和实际应用中仍激发了科学家和研究人员的强烈兴趣。人工神经网络受欢迎的原因之一是它们能够建模非线性动力系统、泛化能力和适应性。然而，仍然存在关于各种潜在的随机过程在稳定唯一数据学习和预测结构中的作用的重要争议。阻碍机器智能系统理论和数值研究的一个障碍是维数灾难和高维概率分布的采样问题。总的来说，这种灾难性问题阻碍了系统有效地描述和研究，因为它们会对系统的有效描述和研究造成显著的复杂性障碍。在这项研究中，直接使用量子信息的语言来处理和描述学习理论中的抽象概念是最有利的候选者之一。因此，本文的主题致力于将计算复杂性问题以量子力学系统的形式进行设计、适应和表述。为了用推断统计的语言来描述这种微观动力学，评估了d维高斯密度的协方差矩阵估计和动力系统的特征值问题的贝叶斯解释。

发布时间: 3/27/2025

查看原文

情绪检测与音乐推荐系统

作者: Swetha Kambham, Hubert Jhonson, Sai Prathap Reddy Kambham

arXiv:2503.20739v1 交叉公告类型: 多领域交叉摘要: 随着人工智能在日常生活中越来越普及，我们提出了一种新型系统，该系统通过深度学习进行音乐推荐和情绪检测。通过面部识别和DeepFace框架，我们的方法能够实时分析人类的情绪，并播放反映所发现情绪的音乐。该系统使用网络摄像头拍照，分析最常见的面部表情，然后从本地存储中提取与其所检测到的情绪相匹配的播放列表。通过允许用户通过下拉菜单或导航按钮手动更改歌曲选择，确保提供一个引人入胜且定制化的体验。通过不断循环播放播放列表，该技术保证了连续性。该系统的目的是通过提供一个响应式且自动化的音乐选择体验来改善通过音乐疗法的情绪健康。

发布时间: 3/27/2025

查看原文

翻转学习：弱监督擦除以分割乳腺 ultrasound 中的结节

作者: Yuhao Huang, Ao Chang, Haoran Dou, Xing Tao, Xinrui Zhou, Yan Cao, Ruobing Huang, Alejandro F Frangi, Lingyun Bao, Xin Yang, Dong Ni

arXiv:2503.20685v1 交叉公告类型：core-formal 摘要：在2D乳腺超声(BUS)和3D自动化乳腺超声(ABUS)中准确分割结节对于临床诊断和治疗规划至关重要。因此，开发自动化的结节分割系统可以提高用户的独立性并加速临床分析。与全监督学习不同，弱监督分割(WSS)可以简化繁琐且复杂的标注过程。然而，当前的WSS方法在实现精确的结节分割方面面临挑战，因为许多方法依赖于不准确的激活图或低效的伪掩码生成算法。在这项研究中，我们提出了一种基于多智能体强化学习的WSS框架，称为翻转学习(Flip Learning)，该框架仅依赖于2D/3D框进行精确分割。具体而言，使用多个智能体擦除目标以促进分类标签翻转，擦除区域作为预测分割掩码。本文研究的主要贡献如下：(1) 使用基于超像素/监督体的方法来编码标准化环境，捕捉边界先验并加速学习过程。(2) 引入了三项精心设计的奖励，包括分类分数奖励以及两种强度分布奖励，以精确引导智能体的擦除过程，从而避免出现欠分割和过分割。(3) 实现了一种分阶段的课程学习策略，使智能体能够以渐进挑战的方式与环境交互，从而提高学习效率。在大规模内部BUS和ABUS数据集上广泛验证后，我们的翻转学习方法优于当前最先进的WSS方法和基础模型，并且在性能上可与全监督学习算法相媲美。

发布时间: 3/27/2025

查看原文

集成陆地和非陆地网络中网络资源分析的概率预测

作者: Cristian J. Vaca-Rubio, Vaishnavi Kasuluru, Engin Zeydan, Luis Blanco, Roberto Pereira, Marius Caus, Kapal Dev

arXiv:2503.20658v1 交叉类型：公告摘要：有效地管理资源对于非地面网络（NTNs）在偏远和未充分服务的地区提供一致性和高质量的服务至关重要。虽然在地面网络中已经使用了传统的单点预测方法，如长短时记忆（LSTM），但由于卫星动力学的复杂性、信号延迟和覆盖范围的变异性，这些方法在NTNs中常常效果不佳。概率预测，可以量化预测的不确定度，是一种稳健的选择。在本文中，我们评估了概率预测技术，特别是SFF，应用于NTN资源分配场景的效果。我们的结果表明，与LSTM等单点预测技术相比，概率预测技术在不同NTN段的带宽和容量需求预测方面更为有效。结果表明，黑色概率预测模型有可能提供准确可靠的预测，并能够量化不确定性，使它们成为优化NTN资源分配不可或缺的工具。在论文结束时，我们还提出了在集成地面网络（TN）-NTN环境中使用概率预测的应用场景和标准化路线图。

发布时间: 3/27/2025

查看原文

AccidentSim: 从真实事故报告生成物理上真实可信的车辆碰撞视频

作者: Xiangwen Zhang, Qian Zhang, Longfei Han, Qiang Qu, Xiaoming Chen

arXiv:2503.20654v1 类别: cross 摘要: 由于车辆事故视频的稀有性和复杂性，收集用于自主驾驶研究的现实世界车辆事故视频极具挑战性。虽然现有的驾驶视频生成方法可能产生视觉上真实的视频，但它们往往无法提供物理上真实的模拟，因为它们缺乏生成准确后碰撞轨迹的能力。在这篇论文中，我们介绍了一种新的框架AccidentSim，该框架通过提取和利用真实世界车辆事故报告中提供的物理线索和上下文信息来生成物理上真实的车辆碰撞视频。具体而言，AccidentSim 利用一个可靠的物理模拟器，从事故报告中的物理和上下文信息中复制后碰撞车辆轨迹，并构建一个车辆碰撞轨迹数据集。然后使用该数据集对语言模型进行微调，使其能够根据用户描述在各种驾驶场景中响应用户提示并预测物理上一致的后碰撞轨迹。最后，我们使用神经辐射场（NeRF）渲染高质量的背景，并将它们与展示物理上真实轨迹的前景车辆合并，生成车辆碰撞视频。实验结果表明，AccidentSim生成的视频在视觉和物理真实性方面表现出色。

发布时间: 3/27/2025

查看原文