arXiv 论文列表

作者: Dixiao Wei, Peng Yi, Jinlong Lei, Yiguang Hong, Yuchuan Du

arXiv:2504.19480v1 宣告类型: cross 摘要: 强化学习（RL）在车队协调问题中的决策制定潜力已经得到充分体现。然而，由于协调目标的不确定性、决策问题的复杂性以及手动设计中试错带来的耗时，找到一个表现良好的奖励函数来指导RL训练以解决复杂的车队协调问题仍然是一个挑战。本文正式定义了车队协调奖励设计问题（PCRDP），将基于RL的车队协调问题扩展到包含自动奖励函数生成。为了解决PCRDP，我们提出了一种基于大型语言模型（LLM）的车队协调奖励设计（PCRD）框架，该框架通过LLM驱动的初始化和迭代优化系统地自动化奖励函数的发现。在该方法中，LLM首先通过分析和初始奖励（AIR）模块基于环境代码和任务要求初始化奖励函数，然后通过进化模块根据训练反馈对其进行迭代优化。AIR模块引导LLM通过一系列思考加深其对代码和任务的理解，有效地减轻了代码生成中的幻觉风险。进化模块对奖励函数进行微调和重建，实现了训练中探索多样性和收敛稳定性的平衡。为了验证我们的方法，我们建立了长江三角洲交通运输网络模拟中的六个具有不同复杂度级别的挑战性协调场景。比较实验结果表明，使用PCRD生成的奖励函数的RL代理始终优于手工工程的奖励函数，在所有场景中的平均性能指标高出10%。

发布时间: 4/29/2025

查看原文

普里斯马：一个开源工具包，用于视觉和视频中的机制可解释性

作者: Sonia Joseph, Praneet Suresh, Lorenz Hufe, Edward Stevinson, Robert Graham, Yash Vadi, Danilo Bzdok, Sebastian Lapuschkin, Lee Sharkey, Blake Aaron Richards

arXiv:2504.19475v1 类型: cross 摘要: 坚固的工具和公开可用的预训练模型有助于推动语言模型机制可解释性的近期进展。然而，由于缺乏可访问的框架和预训练权重，视觉机制可解释性的类似进展受到了阻碍。我们介绍了Prisma（访问代码库：https://github.com/Prisma-Multimodal/ViT-Prisma），这是一个开源框架，旨在加速视觉机制可解释性研究，提供了一个统一的工具包，以访问75+视觉和视频变压器；支持稀疏自编码器（SAE）、转码器和交叉编码器训练；80+预训练SAE权重的套件；激活缓存、电路分析工具和可视化工具；以及教育资源。我们的分析揭示了一些令人惊讶的发现，包括有效的视觉SAEs可能表现出明显低于语言SAEs的稀疏模式，以及在某些情况下，SAE重构可以降低模型损失。Prisma为理解视觉模型内部结构开辟了新的研究方向，同时降低了进入这一新兴领域门槛。

发布时间: 4/29/2025

查看原文

BRIDGE: 评估大型语言模型在理解临床实践文本方面的性能

作者: Jiageng Wu, Bowen Gu, Ren Zhou, Kevin Xie, Doug Snyder, Yixing Jiang, Valentina Carducci, Richard Wyss, Rishi J Desai, Emily Alsentzer, Leo Anthony Celi, Adam Rodman, Sebastian Schneeweiss, Jonathan H. Chen, Santiago Romero-Brufau, Kueiyu Joshua Lin, Jie Yang

arXiv:2504.19467v1 交叉发布类型: cross 摘要: 大型语言模型 (LLMs) 在医疗应用方面前景广阔，正在迅速发展，新模型的发布速度加快。然而，当前在临床环境中的LLMs评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或PubMed衍生的文字段落，未能捕捉到实际电子健康记录(EHR)数据的复杂性。其他基准测试则专注于特定的应用场景，限制了它们在更广泛临床用途中的普遍适用性。为了解决这一差距，我们介绍了BRIDGE，这是一个全面的多语言基准测试，包含87个从九种语言的实际临床数据来源中提取的任务。我们系统地评估了52个最先进的LLMs（包括DeepSeek-R1、GPT-4o、Gemini和Llama 4）的各种推理策略。共有13,572次实验，结果表明，不同模型大小、语言、自然语言处理任务和临床专科之间的性能存在显著差异。值得注意的是，我们证明开源LLMs可以达到与专有模型相当的性能，而基于较老架构的医学微调LLMs通常不如更新的一般用途模型表现好。BRIDGE及其对应的排行榜为新LLMs在实际临床文本理解中的开发和评估提供了基础资源和独特参考。

发布时间: 4/29/2025

查看原文

一种实时手势控制框架

作者: Mahya Khazaei, Ali Bahrani, George Tzanetakis

arXiv:2504.19460v1 交叉类型: 横向摘要: 我们介绍了一种实时、人机在环的手势控制框架，该框架能够通过分析实时视频输入，动态适应音频和音乐，并根据人类的运动。通过在视觉和听觉刺激之间建立响应连接，该系统使舞者和表演者不仅能响应音乐，还能通过他们的动作来影响音乐。该框架适用于现场表演、互动装置和个人使用，提供了一种沉浸式体验，让用户能够实时塑造音乐。该框架结合了计算机视觉和机器学习技术，用于跟踪和解释运动，使用户能够操控音频元素，如节拍、音高、效果和播放顺序。通过持续训练，该框架实现了用户独立的功能，只需50到80个样本即可标注简单的手势。该框架结合了手势训练、提示映射和音频操控，创造了动态的互动体验。手势被解释为输入信号，映射到声音控制命令，并用于自然调整音乐元素，展示了人机交互和机器响应之间的无缝交互。

发布时间: 4/29/2025

查看原文

长上下文幻觉检测

作者: Siyi Liu, Kishaloy Halder, Zheng Qi, Wei Xiao, Nikolaos Pappas, Phu Mon Htut, Neha Anna John, Yassine Benajiba, Dan Roth

arXiv:2504.19457v1 类型: cross 摘要：大规模语言模型（LLMs）在各种任务中展现了卓越的表现。然而，它们容易出现情境幻觉（contextual hallucination），生成与给定情境无关或自相矛盾的信息。尽管许多研究已经探讨了LLMs中的情境幻觉，但在处理长上下文输入方面的问题仍是一个开放性问题。在这项工作中，我们首先通过构建一个专门用于长上下文幻觉检测的数据集，迈出了解决这一问题的第一步。此外，我们提出了一种新颖的架构，使预训练的编码器模型（如BERT）能够处理长上下文，并通过分解和聚合机制有效地检测情境幻觉。我们的实验结果表明，所提出的架构在各种指标上显著优于相同规模的先前模型以及基于LLM的模型，同时还提供了显著更快的推理速度。

发布时间: 4/29/2025

查看原文

CLIP-KOA：借助多模态学习和对称意识损失函数增强膝骨关节炎诊断

作者: Yejin Jeong, Donghun Lee

arXiv:2504.19443v1 Announce Type: cross 摘要：膝关节骨关节炎（KOA）是一种全世界普遍存在的慢性骨骼肌肉疾病，早期诊断至关重要。目前，Kellgren和Lawrence（KL）分级系统被广泛用于评估KOA的严重程度。然而，其高观察者间变异性以及主观性影响了诊断的一致性。为解决这些限制，近年来已经积极研究使用深度学习的自动化诊断技术。在本研究中，我们提出了一种基于CLIP的框架（CLIP-KOA），以提高KOA分级预测的一致性和可靠性。为此，我们引入了一种综合图像和文本信息的学习方法，并结合对称损失和一致性损失，以确保原始图像和翻转图像之间的预测一致性。CLIP-KOA在KOA严重程度预测任务上达到了71.86%的先进精度，消融研究表明，与标准CLIP模型相比，由于我们的贡献，CLIP-KOA在准确率上提高了2.36%。本研究展示了数据驱动医学预测的一个新方向，不仅提高了精细诊断的可靠性，还探索了多模态方法在医学图像分析中的应用。我们的代码可在https://github.com/anonymized-link 获取。

发布时间: 4/29/2025

查看原文

地球映射师：可控制双向卫星图-地图互译的视觉自回归模型

作者: Zhe Dong, Yuzhe Sun, Tianzhu Liu, Wangmeng Zuo, Yanfeng Gu

arXiv:2504.19432v1 Announce Type: cross 摘要：卫星影像和地图作为遥感中的两种基本数据模态，分别提供了地球表面的直接观察和人类可理解的地理抽象。卫星影像与地图之间的双向翻译任务（BSMT）在城市规划和灾害响应等方面具有显著的应用潜力。然而，这项任务存在着两个主要挑战：首先，两种模态之间缺乏精确的像素级对齐极大地复杂化了翻译过程；其次，需要同时实现高层次的地理特征抽象和高质量的视觉合成，这进一步增加了技术复杂性。为了应对这些限制，我们引入了EarthMapper，一种全新的自回归框架，用于可控的双向卫星-地图翻译。EarthMapper通过地理坐标嵌入来锚定生成过程，确保区域特定的适应性，并利用地理条件下的联合尺度自回归（GJSA）过程中的多尺度特征对齐，统一双向翻译于单一训练周期中。我们引入了一种语义融合机制（SI）以增强特征级的一致性，同时提出了一种关键点自适应引导（KPAG）机制以动态平衡推理过程中的多样性和精确度。此外，我们贡献了CNSatMap数据集，其中包括来自38个中国城市的302,132对精确对齐的卫星-地图配对，使基准测试更为稳健。在CNSatMap和纽约数据集上的广泛实验表明，EarthMapper的性能优于现有方法，在视觉真实感、语义一致性和结构保真度方面取得了显著提升。此外，EarthMapper在填图、过图以及坐标条件生成等零样本任务方面表现出色，突显了其灵活性。

发布时间: 4/29/2025

查看原文

Adam优化器的锐利更高阶收敛率

作者: Steffen Dereich, Arnulf Jentzen, Adrian Riekert

arXiv:2504.19426v1 交叉类型摘要：基于梯度下降的优化方法是机器学习中训练深度神经网络的选择方法。除了标准的梯度下降方法外，还经常考虑包含加速技术（如动量方法）和自适应技术（如RMSprop方法）的标准梯度下降方法的适合修改变体作为优化方法。如今，这种复杂的优化方案中最为流行的可能是由Kingma和Ba在2014年提出的Adam优化器。一个非常相关的研究主题是研究这些优化方法的收敛速度。特别是，Polyak在1964年证明，标准的梯度下降方法以率(x - 1)(x + 1)^{-1}收敛到严格局部极小值的一个邻域，而动量以（最优的）更快的收敛速度(\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}收敛，其中x \in (1,\infty)是目标函数在局部极小值处海森矩阵的条件数（最大的和最小的特征值之比）。本文的关键贡献在于揭示，Adam以更快的收敛速度(\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}收敛，而RMSprop仅以收敛速度(x - 1)(x + 1)^{-1}收敛。

发布时间: 4/29/2025

查看原文

构建具备可扩展长期记忆的生产级AI代理

作者: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

arXiv:2504.19413v1 公告类型：交叉摘要：大规模语言模型（LLMs）在生成上下文一致的响应方面表现出非凡的能力，但它们固定大小的上下文窗口在维持长时间多会话对话中的一致性方面提出了根本性的挑战。我们引入了Mem0，一种可扩展的以内存为中心的架构，通过动态提取、整合和检索正在进行的对话中的重要信息来解决这一问题。在此基础上，我们进一步提出了一种增强的变体，利用基于图的记忆表示来捕获对话元素之间的复杂关系结构。通过在LOCOMO基准上的全面评估，我们系统地将我们的方法与六类基线进行了比较：（i）现有的增强记忆系统，（ii）具有不同片段大小和k值的检索增强生成（RAG），（iii）一种处理整个对话历史的方法，（iv）一种开源的记忆解决方案，（v）一种专有的模型系统，以及（vi）一种专用的记忆管理平台。实验证明，我们的方法在四个问题类别：单跳、时间依赖、多跳和开放领域中，始终优于所有现有的记忆系统。值得注意的是，Mem0在LLM作为法官指标上的相对改进达到了26%，而具备图记忆的Mem0的整体得分比基础配置高出约2%。除了准确性提高外，我们还显著降低了与全上下文方法相比的计算开销。特别是，Mem0达到了95%的较低p95延迟，并节省了超过90%的令牌成本，提供了高级推理能力与实际部署约束之间的良好平衡。我们的研究结果突显了结构化、持久性记忆机制在长期对话连贯性中的关键作用，为更可靠和高效的LLM驱动AI代理铺平了道路。

发布时间: 4/29/2025

查看原文

GSFF-SLAM: 3D语义高斯点云SLAM via 特征场

作者: Zuxing Lu, Xin Yuan, Shaowen Yang, Jingyu Liu, Jiawei Wang, Changyin Sun

arXiv:2504.19409v1 宣传类型: cross 摘要：语义感知的3D场景重建对于自主机器人执行复杂交互至关重要。语义SLAM是一种在线方法，将位姿跟踪、几何重建和语义映射整合到一个统一框架中，显示出巨大潜力。然而，现有的系统依赖于2D地面真实先验进行监督，这些先验在现实环境中的稀疏性和噪声性常常限制了它们的表现。为了解决这一挑战，我们提出了一种基于3D 高斯聚类的新颖密集语义SLAM系统 GSFF-SLAM，该系统利用特征字段实现外观、几何和N维语义特征的联合渲染。通过独立优化特征梯度，我们的方法支持使用各种形式的2D先验进行语义重建，特别是稀疏和噪声信号。实验结果表明，与之前的方法相比，我们的方法在跟踪精度和 photorealistic 渲染质量方面均表现出更优的表现。当利用2D地面真实先验时，GSFF-SLAM实现了最先进的语义分割性能，达到95.03%的mIoU，并且仅在轻微性能下降的情况下实现了2.9倍的速度提升。

发布时间: 4/29/2025

查看原文