arXiv 论文列表

作者: Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach

arXiv:2505.09591v1 交叉类型: cross 摘要: 尽管在多模态视觉问答（VQA）模型方面取得了显著进展，但由于模型往往过于自信且偏差，尤其是在离分布（OOD）设置中，可靠性问题仍然较为严重。对于单模态模型，已经做了大量工作来解决这些问题，但在多模态情况下却很少有相关工作。在这里，我们通过提出一种变分VQA方法来解决多模态模型的不可靠性问题。具体而言，我们并未使用AdamW 对视觉-语言模型进行微调，而是采用了一种最近提出的变分算法IVON，该算法提供了一个模型参数的后验分布。通过广泛的实验，我们证明了我们的方法在不牺牲AdamW 准确性的前提下，提高了校准和弃权。例如，与AdamW 微调相比，我们相对于AdamW 基准减少了超过50%的预期校准误差，且在固定风险为1%的情况下，覆盖率提高了4%相较于SOTA（最佳）。当50%的测试案例为OOD时，在分布转换的情况下，性能提升更加显著，实现了相较于SOTA在1%风险下的8%覆盖率改进。总体而言，我们展示了变分学习作为一种增强多模态模型可靠性的可行方法。

发布时间: 5/15/2025

查看原文

从人类反馈中进行强化学习的伦理与说服：一种过程修辞方法

作者: Shannon Lodoen, Alexi Orchard

arXiv:2505.09576v1 交叉种类公告摘要：自2022年以来，诸如ChatGPT和Claude之类的生成AI聊天机器人版本采用了专有的技术——人类反馈强化学习（RLHF）进行训练，利用人类标注者的反馈来微调语言模型的输出。结果，RLHF的集成极大地增强了这些大型语言模型（LLMs）的输出，并使其交互和回应相较于仅使用监督学习的早期版本显得更加“人机合一”。人类和机器生成文本的日益融合可能对透明性、信任、偏见以及人际交往产生严重的伦理、社会技术和教育学影响。为了突显这些影响，本文对由RLHF增强的生成AI聊天机器人目前正在重塑的一些核心程序和技术过程进行了修辞分析：维护语言规范、信息寻求实践以及对社交关系的期望。迄今为止，关于生成AI和LLMs的修辞研究主要集中在生成内容的说服力上。利用Ian Bogost的程序修辞概念，本文将修辞研究的焦点从内容分析转向RLHF增强的LLMs中内置的说服机制。通过这一理论研究探讨了人工智能伦理学的新方向，关注人工智能驱动技术重定向的程序如何加强霸权语言使用、延续偏见、脱离上下文学习以及侵犯人类关系。因此，这将引起教育工作者、研究人员、学者以及越来越多的生成AI聊天机器人用户的兴趣。

发布时间: 5/15/2025

查看原文

BLIP3-o：一个全开放统一多模态模型家族—架构、训练和数据集

作者: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

arXiv:2505.09568v1 类型: cross 摘要: 将图像理解与生成统一起来在最近的多模态模型研究中得到了广泛关注。虽然图像理解的设计选择已经得到了广泛的研究，但在包含图像生成的统一框架中，最优的模型架构和训练方法仍然未得到充分探索。受自回归模型和扩散模型在高质量生成和扩展性方面强大潜力的启发，我们对它们在统一多模态设置中的使用进行了全面研究，重点在于图像表示、建模目标和训练策略。基于这些研究，我们提出了一个新颖的方法，该方法使用扩散变换器生成语义丰富的CLIP图像特征，与传统的基于VAE的表示法形成对比。这一设计既提高了训练效率，又提升了生成质量。此外，我们展示了统一模型的顺序预训练策略——首先在图像理解方面进行训练，然后在图像生成方面进行训练——提供了一种实用的优势，既能保持图像理解能力，又能发展强大的图像生成能力。最后，我们精心构建了一个高质量的指令调优数据集BLIP3o-60k，用于图像生成，通过对各种场景、对象、人体手势等多种描述进行提示GPT-4o 而生成。依托我们创新的模型设计、训练方法和数据集，我们开发了BLIP3-o，一系列状态最前沿的统一多模态模型。BLIP3-o 在涵盖图像理解和生成任务的大多数流行基准测试中实现了卓越的性能。为了促进未来研究，我们全面开源了我们的模型，包括代码、模型权重、训练脚本以及预训练和指令调优数据集。

发布时间: 5/15/2025

查看原文

使用隐式神经表示的胎儿脑MRI切片到体积重建元学习

作者: Maik Dannecker, Thomas Sanchez, Meritxell Bach Cuadra, \"Ozg\"un Turgut, Anthony N. Price, Lucilio Cordero-Grande, Vanessa Kyriakopoulou, Joseph V. Hajnal, Daniel Rueckert

arXiv:2505.09565v1 Announce Type: cross 摘要：从多个运动损坏的低分辨率2D切片进行高分辨率切片到体数据重建（SVR）是基于图像的移动主体诊断（如胎儿大脑磁共振成像（MRI））中的一个关键步骤。现有的解决方案在处理图像伪影和剧烈的主体运动方面存在困难，或者需要切片预对齐以实现满意的重建性能。我们提出了一种新的SVR方法，即使在严重的图像和运动损坏的情况下也能实现快速且准确的MRI重建。我们的方法执行运动校正、离群值处理和超分辨率重建，所有操作都是完全基于隐式神经表示的。该模型可以通过在模拟或真实世界数据上进行全自监督元学习来初始化与特定任务相关的先验知识。在包括来自不同中心的480多个模拟和临床MRI大脑数据重构的广泛实验中，我们证明了在剧烈运动和图像伪影的情况下，该方法具有实用性。我们的结果表明，与最先进的方法相比，特别是在剧烈运动的情况下，我们在重构质量上有所提高，并且重构时间最多可减少50%。

发布时间: 5/15/2025

查看原文

通过过去令牌预测学习长期上下文扩散策略

作者: Marcel Torne, Andy Tang, Yuejiang Liu, Chelsea Finn

arXiv:2505.09561v1 交叉类型: cross 摘要：在一系列观察和动作上进行推理对于许多机器人任务至关重要。然而，从演示中学习有效的长上下文策略仍然极具挑战性。随着上下文长度的增加，由于内存需求上升，训练成本也会随之增加，从而导致策略性能由于虚假相关性的出现而下降。最近的方法通常通过截断上下文长度来绕过这些问题，丢弃可能对后续决策至关重要的历史信息。在本文中，我们提出了一种替代方法，其明确地正则化了过去信息的保留。我们首先重新审视了在模仿学习中遇到的copycat问题，并指出最近的扩散策略中存在一个相反的挑战：它们常常未能捕捉到过去和未来动作之间的关键依赖关系，而不仅仅是过度依赖于之前的动作。为了解决这个问题，我们引入了Past-Token Prediction (PTP) 辅助任务，在该任务中，策略学习预测过去的动作令牌和未来的动作令牌。这种正则化显著提高了策略头的时序建模能力，几乎不需要视觉表示。在此观察结果的基础上，我们进一步引入了一种多阶段训练策略：短上下文条件下预训练视觉编码器，并使用缓存的长上下文嵌入微调策略头。这一策略保留了PTP的好处，同时大大减少了内存和计算开销。最后，我们在测试时将PTP扩展为一种自我验证机制，使得策略能够在推理过程中为与过去动作一致的动作候选评分和选择。在四个真实世界任务和六个模拟任务上的实验表明，我们提出的方法将长上下文扩散策略的性能提高了3倍，并将策略训练加速了超过10倍。

发布时间: 5/15/2025

查看原文

WavReward：通用奖励评估器的语音对话模型

作者: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

arXiv:2505.09558v1 交叉类型：公告摘要：端到端语音对话模型如GPT-4o-audio最近在语音领域引起了广泛关注。然而，语音对话模型对话性能的评估长期以来被忽视。这主要归因于智能聊天机器人传递了大量非文本信息，而这些信息无法通过基于文本的语言模型（如ChatGPT）进行容易的测量。为了解决这一问题，我们提出了一种基于音频语言模型的奖励反馈模型WavReward，该模型可以使用语音输入评估语音对话系统的IQ和EQ。具体而言，1）基于音频语言模型，WavReward结合了深度推理过程和非线性奖励机制，用于后训练阶段。通过利用强化学习算法的多样本反馈，我们构建了一个专门针对语音对话模型的评估器。2）我们引入了ChatReward-30K，这是一个用于训练WavReward的偏好数据集。ChatReward-30K包括语音对话模型的理解和生成方面。这些场景涵盖了诸如文本聊天、九种指令聊天的声学属性以及隐含聊天等多种任务。WavReward在多个语音对话场景中优于之前的最强评估模型，在客观准确性方面从55.1%提高到91.5%，提高了相当大的幅度。在主观A/B测试中，WavReward也以83%的优势领先。全面的消融研究表明，WavReward的每个组件都是必要的。论文被接受后，所有数据和代码将在https://github.com/jishengpeng/WavReward公开。

发布时间: 5/15/2025

查看原文

Flash-VL 2B：优化超低 latency 和高 throughput 的视觉语言模型性能

作者: Bo Zhang, Shuo Li, Runhe Tian, Yang Yang, Jixin Tang, Jinhao Zhou, Lin Ma

arXiv:2505.09498v1 类型: cross 摘要：在本文中，我们引入了Flash-VL 2B，一种针对实时应用优化视觉-语言模型（VLMs）的新方法，目标是在不牺牲准确性的情况下实现超低延迟和高 throughput。利用先进的架构增强和高效的计算策略，Flash-VL 2B 被设计为通过减少处理时间来最大化吞吐量，同时在多个视觉-语言基准上保持竞争力。我们的方法包括定制的架构选择、标记压缩机制、数据策展、训练方案以及一种名为隐式语义缝合的新颖图像处理技术，该技术有效地平衡了计算负载和模型性能。通过对11个标准的视觉-语言模型基准进行广泛评估，我们展示了Flash-VL 2B 在速度和准确性方面均达到最新成果，使其成为在资源受限环境中部署和大型实时应用中的有前途的解决方案。

发布时间: 5/15/2025

查看原文

在自适应线性注入中保持持续学习的可塑性

作者: Seyed Roozbeh Razavi Rohani, Khashayar Khajavi, Wesley Chung, Mo Chen, Sharan Vaswani

arXiv:2505.09486v1 交叉类型：cross 摘要：深度神经网络中可塑性的丢失是一个模型在其容量逐渐减少以进行增量学习的过程，已被认为是非平稳问题设置中学习的关键障碍。最近的研究表明，深度线性网络倾向于对可塑性丢失具有抗性。受这一观察的启发，我们提出了自适应线性化（AdaLin），这是一种通用方法，可以动态地根据其梯度流自适应每个神经元的激活函数，以减轻可塑性丢失。不同于依赖于正则化或周期性重置的先前方法，AdaLin 为每个神经元配备了可学习参数和一个门控机制，该机制根据梯度流将线性注入激活函数中。这种自适应调节确保了足够的梯度信号，并在不需要引入额外的超参数或明确的任务边界的情况下维持持续学习。当与如ReLU、Tanh和GeLU等传统激活函数结合使用时，我们展示了AdaLin在标准基准上的性能显著提升，包括Random Label和Permuted MNIST、Random Label和Shuffled CIFAR-10以及Class-Split CIFAR-100。此外，其效果在更复杂的情境中得到了验证，如使用ResNet-18骨干网络在CIFAR-100上的类增量学习，以及在减轻随策略强化学习代理的可塑性损耗方面。我们进行了一套系统性的消融测试，证明了神经元级别自适应对于良好性能至关重要，并分析了网络中与可塑性丢失可能相关的多种指标。

发布时间: 5/15/2025

查看原文

在实地部署基于基础模型的空地机器人：挑战与机遇

作者: Zachary Ravichandran, Fernando Cladera, Jason Hughes, Varun Murali, M. Ani Hsieh, George J. Pappas, Camillo J. Taylor, Vijay Kumar

arXiv:2505.09477v1 类型: cross 摘要: 基础模型（FMs）与机器人技术的融合使机器人能够理解自然语言并在其环境中推断语义。然而，现有的FM赋能的机器人主要在封闭世界环境中运行，即机器人要么获得了完整的先验地图，要么其工作空间对其可见。本文探讨了在场域中部署FM赋能的机器人的问题，这种场景中，任务经常要求机器人在大尺度且结构不规则的环境中操作。为了有效完成这些任务，机器人必须积极探索其环境、导航复杂地形、处理意外的传感器输入，并在计算约束条件下操作。我们讨论了我们LLM赋能的自主框架SPINE在场域机器人设置中的最新部署。据我们所知，我们首次展示了在结构不规则环境中使用跨多个公里任务的大型LLM赋能机器人规划。SPINE对特定LLM是无偏见的，这使得我们可以提炼出能够在载荷大小、重量和功率（SWaP）受限平台上运行的小型语言模型。通过初步的工作模型提炼，我们然后展示了首个基于设备上的语言驱动的无人机规划器。本文最后提出了未来研究的若干有前途的方向。

发布时间: 5/15/2025

查看原文

二维语义aware位置编码用于视觉变换器

作者: Xi Chen, Shiyang Zhou, Muqi Huang, Jiaxu Feng, Yun Xiong, Kun Zhou, Biao Yang, Yuhui Zhang, Huishuai Bao, Sijia Peng, Chuan Li, Feng Shi

arXiv:2505.09466v1 交叉公告类型摘要：视觉transformer由于其通过自注意力机制捕捉长程依赖和上下文关系的能力，在计算机视觉任务中展现了显著的优势。然而，现有的位置编码技术，这些技术大多是从自然语言处理领域借用而来，未能有效地捕捉图像块之间的语义感知位置关系。传统的绝对位置编码和相对位置编码方法主要关注一维线性位置关系，经常忽略了远距离但上下文相关的图像块之间的语义相似性。这些限制阻碍了模型的泛化能力、平移不变性和处理图像中重复或结构化模式的能力。在本文中，我们提出了一种具有语义感知的二维位置编码方法（$\text{SaPE}^2$），它通过利用局部内容动态适应位置表示，而不是依赖固定的一维线性位置关系或空间坐标。我们的方法增强了模型在不同图像分辨率和尺度下的泛化能力，提高了平移不变性，并更有效地聚合了视觉上相似但空间上距离较远的图像块的特征。通过将$\text{SaPE}^2$集成到视觉transformer中，我们填补了位置编码和感知相似性之间的差距，从而在计算机视觉任务中提高了性能。

发布时间: 5/15/2025

查看原文