arXiv 论文列表

作者: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi

arXiv:2502.01839v1 采样类型：交叉摘要：基于采样的搜索是一种利用测试时计算的简单模式，涉及生成多个候选响应并选择最佳一个——通常是通过验证每个响应的正确性来实现。在本文中，我们研究了支配基于采样的搜索的缩放趋势。我们的发现之一是，仅使用随机采样和直接自我验证的极简实施的简单放大会导致持续的性能改进，例如，使Gemini v1.5 Pro模型在流行基准上的推理能力超越o1-Preview。我们部分归因于基于采样的搜索的可扩展性是由于一种隐式的缩放现象，即采样更大的响应池反过来可以提高验证准确性。我们还发现了两个有用的原则，以通过测试时计算提高自我验证能力：（1）对比响应之间的差异提供了有关错误和幻觉位置的帮助信号，以及（2）不同的模型输出风格在不同的上下文中有用——思维链对推理很有用，但验证起来更困难。我们还发现，尽管可以激发准确的验证，前沿模型在开箱即用的验证能力上表现出异常薄弱，我们引入了一个基准来衡量改进这些缺陷的进展。

发布时间: 2/5/2025

查看原文

TESS：一种可扩展的时空局部学习规则用于脉冲神经网络

作者: Marco Paul E. Apolinario, Kaushik Roy, Charlotte Frenkel

arXiv:2502.01837v1 宣布类型：交叉摘要：对边缘设备上深度神经网络（DNNs）的低功耗推理和训练的需求已经加强了对既可扩展又节能的算法的需求。尽管脉冲神经网络（SNNs）通过事件驱动的方式处理复杂的空时动态，使其能够高效地进行推理，但在资源受限的设备上训练它们仍然具有挑战性，因为传统的基于错误反向传播（BP）的方法在计算和内存需求方面较高。在本工作中，我们借鉴了类似于生物机制的机制，如资格迹、时间依赖突触可塑性和神经活动同步，引入了TESS，这是一种时空局部的学习规则，用于训练SNNs。我们的方法通过依赖于每个神经元内部本地可用的信号解决了时间和空间的信用分配问题，从而使得计算和内存开销能够线性地与神经元的数量相关联，而不依赖于时间步的数量。尽管依赖于局部机制，我们在具有挑战性的适用于边缘的计算机视觉场景中，如IBM DVS手势数据集、CIFAR10-DVS以及CIFAR10和CIFAR100的时间版本中，展示了与时间反向传播（BPTT）算法相当的性能，在准确度方面仅相差约1.4个点。TESS能够在保持低时间和内存复杂性的同时产生与BPTT相当的性能，从而在边缘实现高效且可扩展的学习。

发布时间: 2/5/2025

查看原文

评估数据增强引起的偏差在机器学习模型训练和测试中的影响

作者: Riddhi More, Jeremy S. Bradbury

arXiv:2502.01825v1 交叉公告类型：数据增强摘要：数据增强已成为软件工程中的一种标准实践，用于应对有限或不平衡的数据集，特别是在测试分类和错误检测等专门领域中，数据可能稀缺。尽管在软件测试和调试应用中广泛使用了诸如SMOTE和基于突变的数据增强技术，但关于增强训练数据如何影响模型偏差的理解却不够严谨。特别是在使用增强数据集不仅进行训练，还要进行模型测试的情况下，考虑偏差尤为重要。通过全面研究易失败测试分类，我们展示了如何测试偏差，并理解增加测试集中的增强样本对模型评估可能产生的影响。

发布时间: 2/5/2025

查看原文

Google 中的代理型漏洞再现以实现有效的自动化程序修复

作者: Runxiang Cheng, Michele Tufano, J\"urgen Cito, Jos\'e Cambronero, Pat Rondon, Renyao Wei, Aaron Sun, Satish Chandra

arXiv:2502.01821v1 类型: cross 摘要：bug报告往往缺乏开发者重现和修复潜在缺陷所需的具体细节。 bug重现测试（BRTs，当存在bug时会失败，修复后会通过的测试）对于调试至关重要，但在开源和工业环境中，它们很少包含在bug报告中。因此，从bug报告自动生成BRTs有潜力加速调试过程并减少修复时间。本文研究了在工业环境中自动生成BRTs，特别是在谷歌的具体情况，集中于大型专有代码库的挑战，并考虑了从谷歌内部问题跟踪器提取的真实世界工业bug。我们调整并评估了一项最先进的BRT生成技术LIBRO，并提出了一种基于代理的方法BRT Agent，该方法利用微调的大规模语言模型（LLM）进行代码编辑。我们的BRT Agent在32个人工报告的bug（谷歌内部问题跟踪器的80个bug）中显著优于LIBRO，实现了28%的可信BRT生成率，而LIBRO仅为10%。我们进一步研究了生成的BRTs的实际价值，通过将其与谷歌的自动程序修复系统（APR）结合使用。我们的结果表明，向APR系统提供BRTs可导致28%更多的有可信修复的bug。此外，我们引入了集成通过率（EPR），这是一种指标，利用生成的BRTs来从APR系统生成的所有修复中选择最有希望的修复。我们对EPR在Top-K和基于阈值的修复选择中的评估显示了有希望的结果和权衡。例如，基于其排名第一，EPR在20个候选修复中正确选择了可信修复的70%的情况。

发布时间: 2/5/2025

查看原文

得分即行动：通过连续时间强化学习微调扩散生成模型

作者: Hanyang Zhao, Haoxian Chen, Ji Zhang, David D. Yao, Wenpin Tang

arXiv:2502.01819v1 交叉通知类型：交叉研究摘要：从人类反馈中进行强化学习（RLHF），将扩散模型与输入提示对齐，已成为构建可靠生成型AI模型的关键步骤。该领域大多数工作使用离散时间公式，容易引入误差，并且通常不适用于具有高阶/黑盒求解器的模型。本研究的目标是开发一种严谨的方法，利用连续时间RL对扩散模型进行微调，将其形式化为一个以奖励函数为基础的随机控制问题，该奖励函数将最终结果（终止状态）与输入提示对齐。关键思想是将得分匹配视为控制或动作，从而将连续时间RL中的策略优化和正则化联系起来。为了实现这一目标，我们提出了一种新的连续时间RL的策略优化框架，并通过利用扩散模型的结构特性，展示了其增强价值网络设计空间的潜力。我们通过在稳定扩散v1.5的大规模Text2Image模型微调下游任务中的实验，验证了我们方法的优势。

发布时间: 2/5/2025

查看原文

面向神经符号程序理解

作者: Alejandro Velasco, Aya Garryyeva, David N. Palacio, Antonio Mastropaolo, Denys Poshyvanyk

arXiv:2502.01806v1 声明类型: cross 摘要: 近年来，大语言模型（LLMs）的最新进展为复杂软件工程任务，如代码生成、软件测试和程序理解等，开启了大代码模型（LCMs）自动化的大门。工具如 GitHub Copilot 和 ChatGPT 在支持开发者各个方面的工作中表现出显著的优势。然而，将这些模型扩展到万亿参数规模，如 GPT-4 所展示的那样，带来了重大挑战，这些挑战限制了大型深度学习（DL）模型驱动的 AI 系统的使用。这些挑战包括训练和部署的计算需求日益增加，以及与可信性、偏差和可解释性相关的诸多问题。这些因素使得许多组织难以管理这些模型，而它们的“黑盒”性质削弱了透明度和问责制等关键方面。在这篇论文中，我们质疑增加模型参数始终是前进的最优路径这一普遍假设，前提是存在足够的新数据来学习额外的模式。特别是在这一点上，我们提倡一种结合现有 DL 技术（如 LLMs）与传统符号方法优点的研究方向——后者以其可靠性、速度和确定性而著称。为此，我们概述了该愿景方法的核心功能，并介绍了初步结果，旨在建立第一个神经符号程序理解（NsPC）框架，以帮助识别缺陷代码组件。

发布时间: 2/5/2025

查看原文

神经嵌入中可解释性的片段发现

作者: Shuchen Wu, Stephan Alaniz, Eric Schulz, Zeynep Akata

arXiv:2502.01803v1 类别: cross 摘要：理解神经网络因其高维度和相互作用的组件而具有挑战性。受人类认知的启发，人类通过将复杂的感觉数据打包成重复的实体来进行处理，我们提出利用这一原则来解释人工神经群体活动。生物智能和人工智能都面临着从结构化、自然主义数据中学习的挑战，我们假设分组的认知机制可以为人工系统提供见解。我们首先在具有施加规律的人工序列上训练循环神经网络 (RNNs) 中展示了这一概念，观察到它们的隐藏状态反映了这些模式，并可以提取出影响网络响应的一系列分组。将这一方法扩展到大型语言模型（LLMs）如 LLaMA，我们识别出了与输入中概念相对应的类似重复嵌入状态，并且对这些状态的扰动会激活或抑制相关的概念。通过探索提取不同复杂性神经嵌入中可识别分组字典的方法，我们的发现为解释神经网络引入了一个新的框架，将它们的群体活动视为数据处理的结构化反映。

发布时间: 2/5/2025

查看原文

基于流的方法在学习和序列化机器人技能中的领域随机化

作者: Aidan Curtis, Eric Li, Michael Noseworthy, Nishad Gothoskar, Sachin Chitta, Hui Li, Leslie Pack Kaelbling, Nicole Carey

arXiv:2502.01800v1 宣告类型：交叉摘要：强化学习中的领域随机化是一种提高在模拟中训练的控制策略鲁棒性的已建立技术。通过在训练过程中随机化环境属性，学习到的策略可以在随机化维度上对不确定性产生鲁棒性。虽然环境分布通常由手工指定，但在这篇文章中，我们探讨了通过熵正则化的奖励最大化来自动发现一个归一化流基的神经采样分布的抽样分布。我们展示，这种架构比现有学习简单参数化采样分布的方法更具灵活性和鲁棒性，这已在六个模拟和一个真实世界的机器人领域中得到验证。最后，我们研究了如何将这些学习到的采样分布与优先值函数结合，用于不确定性感知的多步操作规划中的异类检测。

发布时间: 2/5/2025

查看原文

水下CLIP：一种用于水下场景分析的多模态基础模型

作者: Basit Alawode, Iyyakutti Iyappan Ganapathi, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood

arXiv:2502.01785v1 宣告类型: cross 摘要: 水生生物多样性的保护对于缓解气候变化至关重要。水下场景理解在辅助海洋科学家进行决策过程中发挥着关键作用。在本文中，我们介绍了AquaticCLIP，这是一种针对水下场景理解的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一种新的无监督学习框架，可以在水下环境中对齐图像和文本，从而实现分割、分类、检测和计数等任务。通过利用大型水下图像-文本配对数据集，而无需地面真值注释，我们的模型在水生领域丰富了现有的视觉-语言模型。为此，我们使用YouTube、Netflix、NatGeo等异质资源构建了一个包含200万水下图像-文本配对的数据集。为了微调AquaticCLIP，我们提出了一个受提示引导的视觉编码器，该编码器通过可学习的提示逐级聚合 patches 特征，同时一种视觉引导机制通过整合视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化，以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中，AquaticCLIP 实现了显著的性能提升，在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中的视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已在GitHub上公开，网址为xxx。

发布时间: 2/5/2025

查看原文

explainable 深度解析：一种统计现象

作者: Breno W. Carvalho, Artur S. d'Avila Garcez, Lu\'is C. Lamb, Em\'ilio Vital Brazil

arXiv:2502.01774v1 宣告类型: cross 摘要: 沟克（grokking）或延迟泛化是一种引人注目的学习现象，其中测试集损失仅在模型训练集损失收敛后才急剧下降。这挑战了对深度学习网络训练动力学的传统理解。在本文中，我们对沟克进行形式化和研究，强调其出现的关键因素是训练数据和测试数据分布之间的变化。我们介绍了两个专门设计的合成数据集，用于分析沟克。一个数据集研究了采样受限的影响，另一个研究了迁移学习在沟克中的作用。通过控制不平衡子类的采样诱导分布变化，我们系统地重现了该现象，证明虽然采样受限与沟克高度相关，但这并不是其原因。相反，采样受限充当实现必要分布变化的方便机制。我们还展示了当类别形成等变映射时，沟克可以通过模型从相似的类别或子类中学习来解释。不同于早期研究表明沟克主要源于高正则化和稀疏数据的工作，我们证明它也可以在稠密数据和最少的超参数调整下发生。我们的发现加深了对沟克的理解，并为未来训练过程中的更好停止标准奠定了基础。

发布时间: 2/5/2025

查看原文