arXiv 论文列表

视觉语言模型在简单的空间认知上不可靠

作者: Sangeet Khemlani, Tyler Tran, Nathaniel Gyory, Anthony M. Harrison, Wallace E. Lawson, Ravenna Thielstrom, Hunter Thompson, Taaren Singh, J. Gregory Trafton

arXiv:2504.16061v1 Announce Type: cross 摘要：视觉语言模型（VLMs）设计用于从图像中提取相关的空间信息。一些研究表明，VLMs 可能表现出类似人类的场景理解能力，而其他研究揭示了它们在处理关系信息方面的困难。为了实现广泛的适用性，VLMs 必须可靠地执行任务，在多种相关的任务中表现出相当的效能。我们旨在测试这些架构在进行简单的空间认知方面的可靠性，例如，在一个不杂乱的场景中识别一个物体是否在另一个物体的左侧。我们开发了一个基准数据集——TableTest，该数据集中的图像描绘了桌子上的3D场景，物体被安排在桌子上，利用该数据集来评估最先进的VLMs。结果显示，通过使用逻辑上等价但略有变化的提示，性能可能会受到影响。这些分析表明了VLMs在实际应用中如何推理空间关系上的局限性。它们还揭示了增强图像字幕语料库的新机会，以提高训练和测试的效率。

发布时间: 4/23/2025

查看原文

长蟒：通过无训练扩展感受野来增强蟒蛇的长上下文能力

作者: Zhifan Ye, Kejing Xia, Yonggan Fu, Xin Dong, Jihoon Hong, Xiangchi Yuan, Shizhe Diao, Jan Kautz, Pavlo Molchanov, Yingyan Celine Lin

arXiv:2504.16053v1 Announce Type: cross 摘要：状态空间模型（SSMs）已成为语言建模中Transformer模型的有效替代方案，提供线性计算复杂度和恒定的内存使用量，随着上下文长度的增加。然而，尽管在处理长上下文方面表现出高效性，最近的研究表明，如Mamba模型等SSMs在长上下文理解任务上的表现普遍低于Transformer。为了弥补这一显著不足，实现高效且准确的长上下文理解，我们提出了一种无需训练的技术LongMamba，显著增强了Mamba模型的长上下文能力。LongMamba基于我们发现Mamba中的隐藏通道可以根据其感受野长度分为局部通道和全局通道，其中全局通道主要负责长上下文能力。随着输入上下文长度的增加，这些全局通道可能会成为关键瓶颈。具体而言，当输入长度大大超过训练序列长度时，全局通道在适应性地扩展其感受野方面表现出局限性，导致Mamba在长上下文理解方面的表现欠佳。LongMamba的关键思想是通过防止不必要的标记在全局通道的记忆中累积来减轻隐藏状态记忆的衰减。这首先通过识别全局通道中的关键标记来实现，然后应用标记过滤，只保留那些关键标记。通过在合成和现实世界的长上下文场景中的广泛基准测试，LongMamba设定了Mamba长上下文性能的新标准，而无需额外的训练即可显著扩展其运行范围。我们的代码可在https://github.com/GATECH-EIC/LongMamba找到。

发布时间: 4/23/2025

查看原文

评估vision-language模型（VLMs）在放射学中的应用：一项综合性分析

作者: Frank Li, Hari Trivedi, Bardia Khosravi, Theo Dapamede, Mohammadreza Chavoshi, Abdulhameed Dere, Rohan Satya Isaac, Aawez Mansuri, Janice Newsome, Saptarshi Purkayastha, Judy Gichoya

arXiv:2504.16047v1 类型：交叉领域摘要：利用自监督技术训练的大规模数据集建立的基础模型，在医学领域的人工智能（AI）应用方面展现出了一片充满希望的新天地。本研究评估了三种不同的视觉-语言基础模型（RAD-DINO、CheXagent和BiomedCLIP）在捕捉胸部X光成像细节特征以进行放射学任务方面的表现。这些模型在肺气胸和心脏增大（心脏扩大）的分类、分割和回归任务上进行了评估。自监督的RAD-DINO在分割任务中表现出色，而基于文本监督的CheXagent在分类性能上表现更佳。BiomedCLIP在各任务中的表现存在不一致性。一个结合全局和局部特征的定制分割模型显著提高了所有基础模型的表现，尤其是在肺气胸分割任务上效果更为明显。研究结果表明，预训练方法对特定下游任务的模型表现有显著影响。对于精细分割任务，无需文本监督训练的模型表现更好，而基于文本监督的模型在分类和可解释性方面有优势。这些见解为根据放射学的具体临床应用选择基础模型提供了指导。

发布时间: 4/23/2025

查看原文

Muon优化器加速grokking过程

作者: Amund Tveit, Bj{\o}rn Remseth, Arve Skogvold

arXiv:2504.16041v1 宣告类型: 横向对比摘要：本文探讨了不同优化器对“咕克现象”（grokking phenomenon）的影响，即模型表现出延迟泛化的情况。我们使用现代的Transformer架构，在七个数值任务（主要是模数算术）上进行了实验。实验配置系统地变化了优化器（Muon vs. AdamW）和softmax激活函数（标准softmax、稳定最大和稀疏最大），以评估它们对学习动态的联合影响。我们的实证评估表明，使用谱范数约束和二阶信息的Muon优化器显著加快了与广泛使用的AdamW优化器相比的“咕克现象”出现时间。具体来说， Muon 将所有配置下的平均“咕克” epoch 从 153.09 减少到 102.89，这是一个统计上显著的区别（t = 5.0175, p = 6.33e-08）。这表明优化器的选择在促进从记忆到泛化的过渡中起到了至关重要的作用。

发布时间: 4/23/2025

查看原文

LLMs与联邦学习相结合以实现可扩展且安全的物联网管理

作者: Yazan Otoum, Arghavan Asad, Amiya Nayak

arXiv:2504.16032v1 交叉领域公告类型：摘要：物联网生态系统rapid的扩展引入了在可扩展性、安全性和实时决策方面的严重挑战。传统的集中式架构在应对延迟、隐私问题和资源消耗过多方面存在困难，这使得它们不适用于现代大规模物联网部署。本文提出了一种新型的联邦学习驱动的大规模语言模型（FL-LLM）框架，旨在提高物联网系统的智能水平，同时确保数据隐私和计算效率。该框架结合了生成型物联网（GIoT）模型与梯度感知联邦策略（GSFS），根据实时网络条件动态优化模型更新。通过利用混合边缘-云处理架构，我们的方法在分布式物联网环境中平衡了智能、可扩展性和安全性。在IoT-23数据集上的评估表明，我们的框架提高了模型准确性、降低了响应延迟并提升了能源效率，优于传统的联邦学习技术（例如，FedAvg、FedOpt）。这些发现突显了将LLM驱动的联邦学习整合到大型物联网生态系统中的潜力，为更安全、可扩展和自适应的物联网管理系统铺平了道路。

发布时间: 4/23/2025

查看原文

Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3

作者: Ahmed R. Sadik, Siddhata Govind

arXiv:2504.16027v1 声称类型: cross 摘要：确定最有效的大型语言模型以检测代码异味是一项复杂挑战。本文介绍了一种结构化的方法和评估矩阵来解决这一问题，利用了一个精心标注了已知异味的代码样本数据集。该数据集涵盖了四种主流编程语言Java、Python、JavaScript和C++，允许进行跨语言比较。我们使用精确度、召回率和F1分数作为评估指标，对两种最先进的LLM——OpenAI GPT 4.0和DeepSeek-V3进行了基准测试。我们的分析涵盖了三个详细级别：总体性能、类别性能和单个代码异味类型性能。此外，我们探索了成本效益，通过对GPT 4.0基于token的检测方法与DeepSeek V3采用的模式匹配技术进行比较。研究中还进行了成本分析，将其与SonarQube等传统静态分析工具进行了比较。研究结果为实践者提供了有价值的意见，指导他们选择一种高效、成本效益高的自动代码异味检测解决方案。

发布时间: 4/23/2025

查看原文

人工智能超级计算机的发展趋势

作者: Konstantin F. Pilz, James Sanders, Robi Rahman, Lennart Heim

arXiv:2504.16026v1 宣告类型: cross学科交叉摘要：前沿人工智能开发依赖于强大的人工智能超级计算机，然而这些系统的分析却相对有限。我们从2019年到2025年创建了一个包含500台人工智能超级计算机的数据集，并对其性能、功率需求、硬件成本、所有权和全球分布的关键趋势进行了分析。我们发现，人工智能超级计算机的计算性能每九个月翻一番，而硬件获取成本和功率需求每年翻一番。2025年3月的领先系统xAI的Colossus使用了200,000块人工智能芯片，硬件成本为70亿美元，需耗电量为300兆瓦，相当于250,000户家庭的用电量。随着人工智能超级计算机从科学研究的工具转变为工业设备，公司在整个人工智能超级计算机性能中的份额迅速扩大，而政府和学术界的份额则逐渐减少。全球范围内，我们的数据集中人工智能超级计算机的总性能大约有75%来自美国，中国则占15%。如果这些趋势持续下去，到2030年，领先的超级计算机将达到每秒2×10^22个16位浮点运算，使用200万块人工智能芯片，硬件成本为2000亿美元，并需要9吉瓦的电力。我们的分析提供了对人工智能超级计算机领域的洞察，使政策制定者能够评估关键的人工智能趋势，如资源需求、所有权和国家竞争力。

发布时间: 4/23/2025

查看原文

认知流动状态导航：基于上下文的AI干预以提供有效的推理支持

作者: Dinithi Dissanayake, Suranga Nanayakkara

arXiv:2504.16021v1 交叉公告类型摘要：流动理论描述了一种最优的认知状态，在这种状态下，当任务难度与个人技能水平相匹配时，个体能够体验到深入的专注和内在动机。在基于人工智能的推理中，干扰认知流动状态的干预措施可能会阻碍而不是增强决策制定。本文提出了一种基于上下文的认知增强框架，该框架根据三种关键的上下文因素进行干预调整：类型、时间点和规模。通过利用多模态行为线索（例如，注视行为、输入犹豫、交互速度），AI 可以动态调整认知支持，以维持或恢复流动状态。我们提出了认知流动的概念，这是在基于人工智能的推理中的流动理论的扩展，在这种扩展中，干预措施是个性化的、适应性的且最少干扰的。通过从静态干预转向基于上下文的增强，我们的方法确保 AI 系统支持在复杂决策和推理中的深度参与，而不破坏认知沉浸。

发布时间: 4/23/2025

查看原文

AlphaGrad: 非线性梯度规范化优化器

作者: Soham Sane

arXiv:2504.16020v1 类型: cross 摘要: 我们介绍了一种名为AlphaGrad的内存高效且条件无状态优化器，它解决了自适应方法（如Adam）的内存开销和超参数复杂性问题。AlphaGrad 通过张量级L2梯度归一化后跟平滑双曲正切变换来强制实行比例不变性，变换公式为 $g' = \tanh(\alpha \cdot \tilde{g})$，该变换由单一的陡峭度参数 $\alpha$ 控制。我们的贡献包括：(1) AlphaGrad 算法的表述；(2) 形式非凸收敛分析，保证了稳态性；(3) 在多种RL基准测试（DQN、TD3、PPO）上的详尽实验评估。与Adam相比，AlphaGrad展示出高度依赖于上下文的性能特征。尽管在离策略DQN中表现出不稳定性，但在TD3中提供了增强的训练稳定性，并且在需要仔细调整 $\alpha$ 的情况下获得竞争性的结果。而在策略性PPO中，AlphaGrad实现了显著的性能提升。这些结果强调了$\alpha$ 选择的实验证据的重要性，揭示了优化器动力学与底层RL算法之间的强烈交互。AlphaGrad 提供了一种在内存受限场景下的有吸引力的替代优化器，并且在策略性学习领域显示出巨大的前景，其稳定性和效率优势可以产生特别的影响。

发布时间: 4/23/2025

查看原文

CAPO: 成本意识的提示优化

作者: Tom Zehle, Moritz Schlager, Timo Hei{\ss}, Matthias Feurer

arXiv:2504.16005v1 交叉公告类型摘要：大型语言模型（LLMs）通过仅通过提示的引导便解决了广泛的任务，从而彻底改变了自然语言处理。然而，它们的表现对其提示的制定高度敏感。虽然自动化提示优化通过寻找最优提示来解决这一挑战，但当前的方法需要大量的LLM调用和输入令牌，使得提示优化成本高昂。我们引入了CAPO（成本感知提示优化）算法，通过结合自适应机器学习技术来提高提示优化的效率。CAPO是一种进化方法，使用LLM作为操作员，将竞赛纳入其中以节省评估次数，并通过多目标优化平衡性能与提示长度。它联合优化指令和少量样本示例，同时利用任务描述以提高鲁棒性。我们针对各种数据集和LLM进行的广泛实验表明，在15个案例中有11个案例中，CAPO在性能上超越了最先进的离散提示优化方法，改进幅度最高达21%。即使在较小的预算下，我们的算法也已经表现出更好的性能，通过竞赛节省了评估次数，并通过长度惩罚减少了平均提示长度，使其既经济高效又具备成本意识。即使没有少量样本示例，CAPO也超越了竞争对手，并且通常对初始提示具有鲁棒性。CAPO代表了使提示优化更加强大和普及的重要一步，通过提高成本效率来实现这一点。

发布时间: 4/23/2025

查看原文