arXiv 论文列表

作者: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, Ren\'e Vidal

arXiv:2504.02828v1 类型：交叉摘要：扩散模型在图像编辑任务中广泛使用。现有的编辑方法通常通过在文本嵌入或分数空间中策划编辑方向来设计表示操作程序。然而，这样的程序面临着一个关键挑战：高估编辑强度损害了视觉一致性，而低估则无法完成编辑任务。值得注意的是，每张源图像可能需要不同的编辑强度，通过试错寻找合适的强度成本高昂。为了解决这一挑战，我们提出了一种概念裂解刀（CoLan）框架，该框架是一个零样本即插即用框架，在基于扩散的图像编辑中实现有原则的表示操作。在推断阶段，我们将源输入在潜在（文本嵌入或扩散分数）空间中分解为收集到的视觉概念表示的稀疏线性组合。这使我们能够准确估计每个图像中存在的概念，从而指导编辑。基于编辑任务（替换/添加/删除），我们执行定制的概念移植过程，以施加相应编辑方向。为了充分建模概念空间，我们制作了一个概念表示数据集，CoLan-150K，其中包含各种视觉术语和短语的多样描述和场景，以构建潜在词典。在多个基于扩散的图像编辑基线上的实验结果显示，配备了CoLan的方法在编辑效果和一致性保存方面取得了最先进的性能。

发布时间: 4/4/2025

查看原文

关于变压器长度泛化的消失方差现象

arXiv:2504.02827v1 声明类型：交叉摘要：众所周知，在短序列上训练的Transformer在测试时难以稳健地推广到长序列。这引发了这样一个问题：尽管Transformer在数学问题解决和代码合成方面表现出色，它们是否真的是推理引擎。在这篇论文中，我们从消失方差的角度提出了对这一问题的见解。据我们所知，我们是第一个证明即使对于当今最前沿的模型，序列长度增加会导致多头注意力模块输出方差的减少。在argmax检索和字典查找任务中，我们的实验显示，将在注意力输出后应用层归一化会导致长度推广显著改善。我们对这一改进的解释归因于由消失方差引起的数据分布偏移的减少，而非完全消除。

发布时间: 4/4/2025

查看原文

稀疏自动编码器在视觉-语言模型中学习单义特征

作者: Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

arXiv:2504.02821v1 Announce Type: cross 摘要：稀疏自编码器（SAEs） recently 被证明能够增强大语言模型（LLMs）的可解释性和可控性。在这项工作中，我们将稀疏自编码器的应用扩展到视觉语言模型（VLMs），如 CLIP，并引入了一个全面的框架来评估视觉表示的一元性。我们的实验结果表明，利用 VLMs 训练的 SAEs 显著增强了单个神经元的一元性，同时展示了与专家定义的结构（例如，iNaturalist 分类学）相吻合的分层表示。最值得注意的是，我们展示了将 SAEs 应用于干预 CLIP 视觉编码器可以直接引导多模态大语言模型（例如，LLaVA）的输出，而无需对底层模型进行任何修改。这些发现强调了 SAEs 作为增强 VLMs 可解释性和控制性的无监督方法的实用性和有效性。

发布时间: 4/4/2025

查看原文

GMR-Conv：一种基于高斯混合环的高效旋转和反射不变卷积核

作者: Yuexi Du, Jiazhen Zhang, Nicha C. Dvornek, John A. Onofrey

arXiv:2504.02819v1 交叉类型摘要：对称性，即在几何变换下某些特征保持不变，常常在设计卷积神经网络（CNNs）时作为强大的先验知识。尽管传统CNN固有支持平移不变性，但将其性质延伸到旋转和反射一直颇具挑战，通常要求在不变性、效率和信息损失之间做出妥协。在本文中，我们引入了一种高效的卷积核——高斯混合环卷积（GMR-Conv），该卷积核通过混合加权环平滑径向对称性。此设计减轻了环形核的离散化误差，从而在不增加计算开销的情况下保持鲁棒的旋转和反射不变性。我们进一步通过一种新颖的参数化和计算策略优化了GMR-Conv的空间和速度效率，使其能够在可接受的成本下使用更大的核。在八个分类和一个分割数据集上的广泛实验表明，GMR-Conv不仅能够与传统CNNs的性能相匹配，还在没有方向信息的数据应用中可以超越它们。此外，GMR-Conv也被证明比最先进的不变性学习方法更稳健和高效。我们的工作提供了启发性的实验证据，证明精心应用径向对称性可以缓解信息损失的问题，标志着在不变性网络架构方面的有希望的进步。代码可在https://github.com/XYPB/GMR-Conv获取。

发布时间: 4/4/2025

查看原文

大型语言模型中复杂推理的生成性评估

作者: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang

arXiv:2504.02810v1 声称类型: cross 摘要：随着功能强大的大型语言模型（LLMs）展示了超人的推理能力，一个关键问题出现了：LLMs 是否真正进行了推理，还是只是从其海量的网摘训练数据集中回忆答案？公开发布的基准测试一旦被后续的LLM训练数据集采用，必然会受到污染，从而削弱其作为可靠评估工具的有效性。为解决这一问题，我们引入了KUMO，这是一个专门用于评估LLMs推理能力的生成性评估框架。KUMO 独特地结合了LLMs和符号引擎，动态生成种类繁多、多轮次的推理任务，这些任务部分可观察且难度可调。通过自动化管道，KUMO 持续生成跨越开放领域的全新任务，促使模型展示真正的泛化能力，而非记忆能力。我们让23个最先进的LLMs在KUMO生成的5000个任务（覆盖100个领域）上进行了测试，并将它们的推理能力与大学生的成绩进行了基准测试。我们的研究结果表明，许多LLMs在简单的推理任务上已经超过了大学生的表现水平，而在复杂的推理挑战中，推理能力攀升的LLMs也能达到大学生水平的性能。此外，LLMs在KUMO任务上的表现与新发布的现实世界推理基准测试结果之间存在强烈的相关性，这凸显了KUMO作为评估真实LLMs推理能力的稳健且持久工具的价值。

发布时间: 4/4/2025

查看原文

MegaMath：打开数学_corpus_的界限（注意：_corpora_一词在中文里通常特指“语料库”，但在数学领域可能需要根据具体语境翻译得更准确，如果是指大规模的数学数据集或资料集，可以翻译为“大规模数学资料”或“大型数学数据库”）

作者: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing

arXiv:2504.02807v1 宣布类型: cross 摘要：数学推理是人类智能的基石，也是大型语言模型（LLMs）高级能力的重要基准。然而，研究社区仍然缺少一个针对数学为中心的LLM预训练需求的开放、大规模、高质量语料库。我们提出了MegaMath，这是一个通过以下实践从多样化的数学焦点来源中整理而来的开放数据集：（1）重新提取网络数据：我们使用数学导向的HTML优化、基于fastText的过滤和去重，重新从Common Crawl中提取数学文档，以在网络中获取更高质量的数据。（2）回忆相关的代码数据：我们从大型代码训练语料库Stack-V2中识别高质量的数学相关代码，进一步增强数据多样性。（3）探索合成数据：我们从网络数据或代码数据中合成了问答风格的文本、数学相关代码以及交织的文本-代码块。通过整合这些策略并通过对大量消融实验的有效性进行验证，MegaMath提供了现有开放数学预训练数据集中最大的371亿 tokens 数量和最高质量的数据集。

发布时间: 4/4/2025

查看原文

系统评估大型视觉-语言模型在手术人工智能中的应用

作者: Anita Rau, Mark Endo, Josiah Aklilu, Jaewoo Heo, Khaled Saab, Alberto Paderno, Jeffrey Jopling, F. Christopher Holsinger, Serena Yeung-Levy

arXiv:2504.02799v1 类型: cross 摘要：大型视觉-语言模型为基于AI的图像理解提供了新的范式，使模型能够在没有任务特定训练的情况下执行任务。这种灵活性在医学领域尤为有前景，因为医学领域的专家标注数据稀缺。然而，在以干预为中心的领域——尤其是在手术中，决策主观性强且临床场景变化多端——VLMs的实际实用价值仍然存疑。在本文中，我们对11种最先进的VLMs在17项关键的外科AI视觉理解任务上的表现进行了全面分析，涵盖了从解剖结构识别到技能评估的各个方面，使用了跨越腹腔镜、机器人和开放手术的13个数据集。在我们的实验中，VLMs展示了有前景的泛化能力，有时在部署到训练环境外时甚至超过了监督模型。上下文学习，即在测试期间结合示例，将性能提高了三倍左右，表明适应性是其关键优势之一。尽管如此，需要空间或时间推理解析的任务仍然具有挑战性。除了手术，我们的研究结果还为VLMs在临床及更广泛的实际应用中应对复杂和动态场景的潜力提供了见解。

发布时间: 4/4/2025

查看原文

统一的世界模型：结合视频和动作扩散的大规模机器人数据集预训练

作者: Chuning Zhu, Raymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta

arXiv:2504.02792v1 宣布类型: cross 摘要：模仿学习已成为构建通用机器人的一种有前景的方法。然而，由于模仿学习依赖于高质量的专家演示，将其扩展到大规模的机器人基础模型仍然具有挑战性。与此同时，大量描绘各种环境和多样化行为的视频数据唾手可得。这些数据为真实世界的动态和代理-环境互动提供了丰富的信息来源。然而，利用这些数据直接进行模仿学习由于大多数当前方法缺乏所需的动作标注而变得困难。在这项工作中，我们提出了统一世界模型（UWM），这是一种框架，允许同时利用视频数据和动作数据进行策略学习。具体来说，UWM 将动作扩散过程和视频扩散过程整合到一个统一的变换器架构中，其中每个模态有自己的独立扩散时间步。我们展示了通过简单地控制每个扩散时间步，UWM 可以灵活地表示策略、前向动力学、逆向动力学以及视频生成器。通过模拟和实际世界的实验，我们展示了以下几点：（1）UWM 在同时包含动力学和动作预测的大型多任务机器人数据集上实现了有效的预训练，其生成的策略比模仿学习更具泛化能力和鲁棒性；（2）UWM 自然地使从无动作的视频数据中学习变得更加容易，通过独立控制针对特定模态的扩散时间步，进一步提高了微调策略的性能。我们的结果显示，UWM 提供了一个有希望的步骤，以利用大规模、异构的数据集进行可扩展的机器人学习，并提供了模仿学习和世界建模之间常见不统一范式的简单统一。相关信息、视频和代码可在 https://weirdlabuw.github.io/uwm/ 可用。

发布时间: 4/4/2025

查看原文

向绿色AI原生网络迈进：基站在能耗估算中基于神经电路策略的评估

作者: Selim Ickin, Shruti Bothe, Aman Raparia, Nitin Khanna, Erik Sanders

arXiv:2504.02781v1 类型: cross 摘要：无线硬件和基于AI的网络管理软件的优化在无线接入网络中实现了显著的能量节省。通过推荐行动启用能量节省的底层机器学习(ML)模型的执行可能需要额外的计算和能量，这突显了探索和采用准确且节能的ML技术的机会。本研究评估了在一种使用案例中使用稀疏结构的神经电路策略(NCPs)以估算基站的能量消耗。在ML模型中的稀疏性降低了内存、计算和能量需求，从而有利于低成本和可扩展的解决方案。我们还通过量化其对变化的模型超参数(HPs)的敏感性，对比评估了NCPs与传统且广泛使用的ML模型（如长短期记忆LSTM）的一般泛化能力。NCPs显示出明显的计算开销和能量消耗减少。此外，结果表明NCPs对诸如迭代次数和每层神经元数量等变化的HPs具有鲁棒性，这使得它们成为减轻模型管理和降低电信领域机器学习运营(MLOps)中的能量消耗的合适选项。

发布时间: 4/4/2025

查看原文

从消费到合作：通过测量交互模式来增强在开放任务中的人类认知

作者: Joshua Holstein, Moritz Diener, Philipp Spitzer

arXiv:2504.02780v1 类别：交叉学科摘要：生成式AI和特别是大型语言模型（LLMs）的兴起，从根本上改变了知识工作中的认知过程，引发了对其对人类推理和问题解决能力影响的关键问题。随着这些AI系统在工作流中越来越普及，它们为增强人类思维提供了前所未有的机会，同时也通过被动消费生成的答案带来了认知衰退的风险。这种张力在开放性任务中尤为明显，在开放性任务中，有效的解决方案需要深入的背景知识和知识的整合。与具有明确评估标准的结构化任务不同，在此类开放性任务中衡量人-LLM互动的质量面临着重大挑战，因为缺乏真实参考点，且解决方案的发展具有迭代性。为应对这一挑战，我们提出了一个框架，通过两个维度分析互动模式：认知活动模式（探索 vs. 利用）和认知参与模式（构建 vs. 损害）。该框架提供了系统性的测量方法，以评估何时LLM是用于人类思维的有效工具而非人类认知的替代品，从而推进了有关保护和增强人类认知能力的AI系统的理论理解与实际指导。

发布时间: 4/4/2025

查看原文