arXiv 论文列表

作者: Max Muchen Sun, Allison Pinosky, Todd Murphey

arXiv:2504.17872v1 类型:交叉摘要:遍历覆盖通过使代理轨迹的空间分布与目标分布对齐来有效生成探索行为，其中这些两种分布之间的差异通过遍历度量进行度量。然而，现有的遍历覆盖方法受限于可用于控制合成的遍历度量有限的集合，从根本上限制了它们的性能。在本文中，我们提出了一种基于流匹配的替代遍历覆盖方法，这是一种广泛用于生成推理以实现高效和可扩展采样的技术。我们正式推导了遍历覆盖的流匹配问题，并表明它等价于具有闭式解的线性二次调节器问题。我们的建模使我们可以从生成推理中采用替代的遍历度量，从而克服现有度量的限制。这些度量先前对于控制合成来说是不可行的，但现在可以通过无需计算开销的方式进行支持。具体而言，基于Stein变分梯度流的流匹配可以直接在目标分布的得分函数上进行控制合成，从而提高对未正常化分布的鲁棒性；另一方面，基于Sinkhorn散度流的流匹配实现了一种基于最优传输的遍历度量，从而在具有不规则支持的非光滑分布上提高了覆盖性能。我们通过全面的数值基准和不同非线性动力学来验证我们方法的改进性能和具有竞争力的计算效率。我们还通过Franka机器人上的一系列绘图和擦除任务展示了我们方法的实际可行性。

发布时间: 4/28/2025

查看原文

CaRL：使用简单奖励学习可扩展规划策略

作者: Bernhard Jaeger, Daniel Dauner, Jens Bei{\ss}wenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

arXiv:2504.17838v1 优先规划类型: 跨域摘要：我们研究了自主驾驶中的特权规划 reinforcement learning (RL)。对于这项任务的最先进的方法是基于规则的，但这些方法难以扩展到长尾情况。相反，RL 是可扩展的，不像模仿学习那样会遭受累积错误的问题。现代驾驶的 RL 方法使用复杂的形状奖励，这些奖励将多个独立奖励相加，例如进步、位置或方向奖励。我们发现，当 mini-batch 大小增加时，PPO 无法优化这些奖励的一种流行版本，从而限制了这些方法的可扩展性。相反，我们提出了一种新的奖励设计，主要基于优化一个直观的奖励项：路线完成。违规行为通过终止episode或者乘性地减少路线完成来被惩罚。我们发现，当使用我们简单的奖励训练时，PPO 与较高的 mini-batch 大小一起扩展得很好，甚至提高了性能。使用大 mini-batch 大小使通过分布式数据并行实现高效的扩展成为可能。我们将 PPO 扩展到了 CARLA 中的 300M 个样本和 nuPlan 中的 500M 个样本，仅使用一个 8-GPU 节点。结果模型在 CARLA 最长6 v2 基准中达到了 64 DS，显著优于其他具有更复杂奖励的 RL 方法。只需对在 CARLA 中的使用进行极小的调整，同样的方法在 nuPlan 中表现最佳。它在 Val14 基准中分别以非反应交通 91.3 和反应交通 90.6 的得分超过了先前工作的数量级速度。

发布时间: 4/28/2025

查看原文

开源大模型在塑造GeoAI未来中的作用

作者: Xiao Huang, Zhengzhong Tu, Xinyue Ye, Michael Goodchild

arXiv:2504.17833v1 Announce Type: cross 摘要：大型语言模型（LLMs）正在重塑地理空间人工智能（GeoAI），提供数据处理、空间分析和决策支持的新能力。本文探讨了开源范式在这一变革中的关键作用。尽管 proprietary LLMs 提供了易访问性，但它们往往限制了为专门地理空间任务所需的可定制性、互操作性和透明度。相反，开源替代方案显著推动了地理信息系统科学（GIScience），促进了更高的适应性、可再现性和社区驱动的创新。开源框架使研究人员能够定制解决方案，整合最新方法（例如，强化学习、先进的空间索引），并符合 FAIR 原则。然而，对任何 LLM 的日益依赖需要仔细考虑安全漏洞、伦理风险和稳健的治理，以确保 AI 生成的地理空间输出的质量。关于可访问性、监管和误用的持续辩论突显了负责任的 AI 开发策略的必要性。本文认为，GIScience 的进步不应通过单一模型类型来实现，而是通过培养一个多样化、互操作的生态系统来实现，该生态系统结合了为创新奠定的开源基础、定制的地理空间模型和跨学科合作。通过在更广泛的 GeoAI 景观中批判性地评估开源 LLMs 的机遇和挑战，本文为利用 AI 以公平、可持续和科学严谨的方式推进空间研究、政策和决策做出了贡献。

发布时间: 4/28/2025

查看原文

adversarially-鲁棒的变压器 Fine-Tuning 单张图像去雾

作者: Vlad Vasilescu, Ana Neacsu, Daniela Faur

arXiv:2504.17829v1 屏蔽类型: 横向摘要：单图像除雾是遥感应用中的一个重要课题，能够提高获取图像的质量并增加物体检测精度。然而，此类结构的可靠性尚未得到充分分析，使得它们面临潜在的不可感知扰动的风险，这些扰动可能会显著妨碍其性能。在本文中，我们展示了最先进的图像到图像除雾变换器对对抗噪声的脆弱性，即使一个像素的变化也足以使PSNR降低多达2.8 dB。接下来，我们提出两种轻量级微调策略，旨在提高预训练变换器的鲁棒性。我们的方法在保持与清洁图像类似性能的同时，显著增强了对对抗数据的保护能力。此外，我们展示了这些方法在两种遥感场景中的应用，证明了它们在分布外数据中的稳健行为。对抗微调和攻击算法的源代码可以在github.com/Vladimirescu/RobustDehazing找到。

发布时间: 4/28/2025

查看原文

VEU-Bench：向着全面理解视频编辑的方向

作者: Bozheng Li, Yongliang Wu, Yi Lu, Jiashuo Yu, Licheng Tang, Jiawang Cao, Wenqing Zhu, Yuyang Sun, Jay Wu, Wenbo Zhu

arXiv:2504.17828v1 分类类型: cross 摘要:网络上广泛共享的视频通常会被编辑。尽管最近的视频大型语言模型（Vid-LLMs）在一般视频理解任务上取得了很大进展，但在视频编辑理解（VEU）任务上的能力仍然未被探索。为了解决这一差距，本文介绍了VEU-Bench（视频编辑理解基准），这是一个全面的基准，从帧内特征如镜头大小到帧间属性如剪辑类型和过渡，分类了各种维度的视频编辑组件。不同于关注主要编辑元素分类的先前视频编辑理解基准，VEU-Bench 包含三个阶段的19个细粒度任务：识别、推理和判断。为了增强VEU的自动注释，我们构建了一个集成基于本体的知识库的注释管道。通过与11个当前最先进的Vid-LLMs进行广泛实验，我们的发现揭示了当前Vid-LLMs在VEU任务中面临着重大挑战，部分模型的表现甚至比随机选择更差。为缓解这一问题，我们开发了Oscars，这是一个专门针对策划的VEU-Bench数据集微调的VEU专家模型。Oscars 在VEU-Bench上的准确度上超过了现有开源的Vid-LLMs超过28.3%，其性能与像GPT-4o这样的商用模型相当。我们还展示了集成VEU数据显著提高了Vid-LLMs在一般视频理解基准上的性能，在九个推理任务中的平均改进为8.3%。

发布时间: 4/28/2025

查看原文

进化遇上传播：高效神经架构生成

作者: Bingye Zhou, Caiyang Yu

arXiv:2504.17827v1 宣布类型: cross 摘要：神经架构搜索（NAS）因其在深度学习模型设计中的变革潜力而获得了广泛关注。然而，NAS 的庞大而复杂的搜索空间导致了巨大的计算和时间成本。神经架构生成（NAG）通过将 NAS 重新定义为生成问题来解决这一问题，从而能够为特定任务生成最优架构。尽管 NAG 具有很大的潜力，但主流方法如扩散模型在全球搜索能力方面仍存在局限性，并且仍然受到高计算成本和时间需求的困扰。为克服这些挑战，我们提出了一种新的方法：基于进化扩散的神经架构生成（EDNAG），该方法实现了高效且无需训练的架构生成。EDNAG 利用进化算法模拟扩散模型中的去噪过程，使用适应度来引导从随机高斯分布到最优架构分布的过渡。这种方法结合了进化策略和扩散模型的优点，能够实现快速而有效的架构生成。大量实验表明，EDNAG 在架构优化方面达到了最先进的（SOTA）性能，准确率提高了高达 10.45%。此外，它消除了耗时的训练需求，平均加速推理速度 50 倍，展示了其卓越的效率和效果。

发布时间: 4/28/2025

查看原文

FashionM3：基于统一视觉-语言模型的多模态、多任务和多轮服装助理

作者: Kaicheng Pang, Xingxing Zou, Waikeung Wong

arXiv:2504.17826v1 交叉发布类型: cross 摘要: 时尚搭配和个人化推荐在现代零售中至关重要，为时尚行业带来了巨大的经济价值。随着视觉语言模型(VLM)的出现，通过自然语言和视觉交互来增强零售业的新机遇也出现了。本文提出了一种名为FashionM3的多模态、多任务、多轮次时尚助手，该助手基于一个专门针对时尚任务微调的VLM构建。它通过提供多种能力，如个性化推荐、替代建议、产品图像生成和虚拟试穿仿真，帮助用户发现满意的职业装搭配。FashionM3在新颖的FashionRec数据集上进行微调，该数据集包含331,124个多模态对话样本，覆盖了基础推荐、个性化推荐和替代推荐任务，通过多轮交互提供上下文相关的个性化建议。定量和定性评估以及用户研究证明，FashionM3在推荐效果和作为时尚助手的实际价值方面表现出色。

发布时间: 4/28/2025

查看原文

基于差分变换器的双提示图像修复

作者: Dehong Kong, Fan Li, Zhixin Wang, Jiaqi Xu, Renjing Pei, Wenbo Li, WenQi Ren

arXiv:2504.17825v1 交叉类型: cross 摘要: 最近的图像恢复方法大多采用具有U-Net骨干的潜在扩散模型，但由于其能力有限，仍然面临着实现高质量恢复的挑战。随着扩散变换器(DiT)如SD3的出现，因为它们在保质性和扩展性方面具有更好的效果，成为了一种有前景的替代方案。在本文中，我们介绍了DPIR (双提示图像恢复)，这是一种新颖的图像恢复方法，能够有效地从多个角度提取低质量图像的条件信息。具体而言，DPIR 包含两个分支：一个低质量图像条件分支和一个双提示控制分支。第一个分支利用一个轻量级模块以高效的方式将图像先验信息整合到DiT中。更重要的是，我们相信在图像恢复中，仅依靠文本描述无法全面捕捉其丰富的视觉特征。因此，我们设计了一个双提示模块，以向DiT提供额外的视觉线索，既捕捉全局上下文又捕捉局部外观。提取的全局-局部视觉提示作为额外的条件控制，与文本提示一起形成双提示，大大提升了恢复质量。大量的实验结果表明，DPIR 在图像恢复性能方面表现出色。

发布时间: 4/28/2025

查看原文

EduBot — LLMs能解决个性化学习和编程作业的问题吗?

作者: Yibin Wang, Jiaxi Xie, Lakshminarayanan Subramanian

arXiv:2504.17824v1 宣传类型：交叉摘要：大型语言模型（LLMs）的普及正在彻底改变编写代码的过程。通用和代码LLMs在单次查询下生成独立函数和代码完成任务方面表现出色。然而，使用递归请求和错误修复解决综合编程任务的能力仍有待商榷。在本文中，我们提出了EduBot，这是一个结合概念知识教学、端到端代码开发、递归提示驱动的个性化编程以及用LLMs支持有限的人工干预进行调试的智能自动化助手系统。我们展示了EduBot可以通过递归自动提示驱动系统解决包含从概念到编码问题逐难度递增的子任务的复杂编程任务，而无需对LLMs本身进行微调。为了进一步评估EduBot的性能，我们设计并实施了一个基准测试套件，其中包括20个算法、机器学习和实际问题场景。结果显示，EduBot可以在不到20分钟内完成大多数场景。基于该基准测试套件，我们进行了一个比较研究，将不同的LLMs作为骨干，并验证EduBot在不同能力LLMs中的兼容性和鲁棒性。我们认为，EduBot是一种探索性方法，用于探索预训练LLMs在多步推理和代码生成方面解决个性化作业（结合知识学习和代码生成）的潜力。

发布时间: 4/28/2025

查看原文

AI开发的云织模型

作者: Darcy Kim, Aida Kalender, Sennay Ghebreab, Giovanni Sileno

arXiv:2504.17823v1 声明类型: cross 摘要: 在分析与边缘化社区合作开发人工智能时遇到的挑战时，我们发现在常用范式中表达这些挑战很困难。因此，我们构建了一个替代的概念框架，将人工智能的发展根植于社会结构——我们称之为“云编织模型”——该模型受到了（但不限于）土著知识、自然的图案和东方传统的影响。本文介绍了并详细阐述了该模型的基本要素（云、蜘蛛、线、蜘蛛网和天气）及其在人工智能背景下的解释。然后，该框架被应用于理解和解释接近边缘化社区的合作创造试点中观察到的模式，突出了一些被忽视但又相关的负责任的人工智能开发维度。

发布时间: 4/28/2025

查看原文