arXiv 论文列表

自我控制动态扩展模型 для 连续学习（注：中文中没有精确的对应词汇，“Self-Controlled Dynamic Expansion Model for Continual Learning” 最佳翻译为“自我控制动态扩展模型 for 连续学习”，直译为“自我控制动态扩展模型 для 连续学习”以保持原文的结构和风格）

作者: Runqing Wu, Fei Ye, Rongyao Hu, Guoxi Huang

arXiv:2504.10561v1 交叉公告类型摘要：持续学习（Continual Learning, CL）体现了一种高级训练范式，在获取新任务的过程中，先前的数据样本保持不可访问状态。许多研究已经探索了利用预训练的视觉变换器（Vision Transformer, ViT）以增强持续学习中的模型效果。然而，这些方法通常采用单一的、静态的骨干网络，这在应对多样化的数据领域时无法充分适应新的任务，特别是当参数量很大时。本文通过引入一种创新的自我控制动态扩展模型（Self-Controlled Dynamic Expansion Model, SCDEM），解决了这一局限性。SCDEM 统筹管理多个不同的可训练预训练 ViT 骨干网络，提供多样性和语义丰富的表示。具体而言，通过采用多骨干架构作为共享模块，所提出的方法动态生成一个新的专家以最小的参数量来适应新的任务。此外，还引入了一种新颖的合作优化机制（Collaborative Optimization Mechanism, COM），通过利用历史专家的预测信号协同优化多个骨干网络，从而在不抹去先前已获得的知识的情况下促进新任务的学习。另外，还提出了一种新颖的特征分布一致性（Feature Distribution Consistency, FDC）方法，通过最优传输距离机制对之前和当前学习的表示之间的语义相似性进行对齐，有效减轻了负面知识转移的影响。此外，为解决过度正则化问题，本文还提出了动态层级特征注意机制（Dynamic Layer-Wise Feature Attention Mechanism, DLWFAM），以自主确定每个可训练表示层的惩罚强度。通过一系列广泛的实验评估了所提出方法的有效性，实验证明该方法达到了最先进的性能。

发布时间: 4/16/2025

查看原文

通过主动学习高效过程奖励模型训练

作者: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou

arXiv:2504.10559v1 交叉类型: cross 摘要: 过程奖励模型(PRMs)为大型语言模型(LLMs)提供了逐步骤的监督，但在扩展训练数据标注方面，对于人类和LLMs来说仍然是一个挑战。为了解决这一限制，我们提出了一种主动学习方法ActPRM，该方法积极选择最不确定的样本进行训练，大大降低了标注成本。在训练过程中，我们使用PRM在前向传播后估计不确定性，并保留只有高度不确定的数据。然后，一个有能力但成本高昂的推理模型对这些数据进行标注。接着，我们根据标注计算损失，并更新PRM的权重。我们比较了ActPRM与传统微调，结果显示ActPRM在基于池的主动学习设置中减少了50%的标注，但达到了相当甚至更好的性能。除了标注效率之外，我们还在ActPRM的筛选下，过滤了超过100万的数学推理轨迹，保留了60%的数据。随后在这个选定的数据集上进行训练，使得在ProcessBench上达到了新的最佳表现75.0%，在PRMBench上达到了65.5%，与同等规模的模型相比。

发布时间: 4/16/2025

查看原文

代码障碍：LLMs实际上理解什么？

作者: Serge Lionel Nikiema, Jordan Samhi, Abdoul Kader Kabor\'e, Jacques Klein, Tegawend\'e F. Bissyand\'e

arXiv:2504.10557v1 宣告类型: cross 摘要: 理解代码是自动化软件开发任务的核心能力。虽然像大语言模型（LLMs）这样的基础模型在许多软件工程挑战中表现出色，但它们超出简单标记识别的真正语义理解程度仍然不清楚。这项研究使用代码混淆作为结构化测试框架，评估LLMs的语义理解能力。我们系统地对源代码应用受控的混淆变化，并通过两项互补任务进行评估：生成混淆代码的准确描述和执行解混淆，后者对于逆向工程应用具有重要意义。我们的测试方法包括13个先进的模型，涵盖了专为代码优化（例如，StarCoder2）和通用（例如，GPT-4o）的架构，并且评估了一个基于CodeNet创建的基准，该基准包含250个过滤后的Java编程问题及其解决方案。研究结果表明，随着混淆复杂性的增加，性能出现了统计显著的下降，而通用模型相较于专为代码优化的模型表现出出乎意料的抗干扰能力。虽然一些模型能够识别混淆技术，但它们重构底层程序逻辑的能力仍然受限，这表明它们的语义表示机制存在局限性。这项研究引入了评估语言模型代码理解能力的新方法，并为推进安全关键代码分析应用如逆向工程和对抗性代码分析的研究建立了实证基准。

发布时间: 4/16/2025

查看原文

基于VAE的特征解缠绕在通用GNSS干扰分类中的数据增强与压缩

作者: Lucas Heublein, Simon Kocher, Tobias Feigl, Alexander R\"ugamer, Christopher Mutschler, Felix Ott

arXiv:2504.10556v1 分布式学习和边缘AI需要高效的數據處理、低延時通信、分散式模型訓練以及嚴格的數據隱私，以在邊緣設備上實現實時智能，同時減少對集中式基礎設施的依賴並確保高模型性能。在全球导航卫星系统（GNSS）应用的背景下，主要目标是准确监测和分类影响系统性能的干扰，以增强态势感知能力。为了实现这一目标，可以在低资源设备上部署机器学习（ML）模型，确保最小的通信延迟并保护数据隐私。关键挑战是在保持高分类精度的同时压缩ML模型。在本论文中，我们提出了变分自编码器（VAEs）进行分离，以提取能够准确分类干扰的必要潜在特征。我们证明了分离方法可以用于数据压缩和数据增强，通过插值信号功率的低维潜在表示来实现这一点。为了验证我们的方法，我们在四个不同的数据集上评估了三种VAE变体——朴素的、因子化的和条件生成的——包括两个在受控室内环境中收集的数据集和两个实际高速公路数据集。此外，我们进行了广泛的超参数搜索以优化性能。我们提出的方法的压缩率达到512到8192之间，并且分类精度最高可达99.92%。

发布时间: 4/16/2025

查看原文

超越生成学习三难境地：在数据稀缺领域中的生成模型评估

作者: Marco Salm\`e, Lorenzo Tronchin, Rosa Sicilia, Paolo Soda, Valerio Guarrasi

arXiv:2504.10555v1 宣布类型: cross 摘要: 数据稀缺仍然是阻碍包括但不限于医学和精准农业等多个领域技术进步的关键瓶颈。为应对这一挑战，我们探讨了深度生成模型（DGMs）在满足生成学习三难困境——忠实性、多样性和采样效率——方面生产合成数据的潜在能力。然而，认识到这些标准在实践中是不够的，我们将其扩展到包括效用、鲁棒性和隐私性，这些因素对于确保DGMs在实际场景中的应用至关重要。在数据稀缺的环境中评估这些指标尤为具有挑战性，因为DGMs通常依赖于大数据集以发挥最佳效果。这一限制在医学和精准农业等领域尤为明显，在这些领域，确保在数据限制下的模型性能是至关重要的。为应对这些挑战，我们使用最先进的评估指标，在数据稀缺环境中评估生成学习三难困境，比较了三种主流的DGMs：变分自编码器（VAEs）、生成对抗网络（GANs）和扩散模型（DMs）。此外，我们提出了一种综合框架来评估由DGMs生成的合成数据的效用、鲁棒性和隐私性。我们的研究结果表明，在不同应用场景中，DGMs具有不同的优势。根据应用背景，每种模型都表现出独特的优点。该研究扩展了生成学习三难困境的范围，使其与实际需求相一致，并提供了针对特定应用选择DGMs的可操作指导。

发布时间: 4/16/2025

查看原文

LEMUR 神经网络数据集： Towards 平滑的自动化机器学习

作者: Arash Torabi Goodarzi, Roman Kochnev, Waleed Khalid, Furui Qin, Tolgay Atinc Uzun, Yashkumar Sanjaybhai Dhameliya, Yash Kanubhai Kathiriya, Zofia Antonina Bentyn, Dmitry Ignatov, Radu Timofte

arXiv:2504.10552v1 标签类型: cross 摘要：神经网络是人工智能的基础，推动了计算机视觉和自然语言处理的进步。高质量的数据集对于它们的发展至关重要，Growing Interest in 由神经网络本身组成的数据集也在增加，以支持基准测试、自动化机器学习（AutoML）和模型分析。我们介绍了LEMUR，一个开源的神经网络模型数据集，包含跨对象检测、图像分类、分割和自然语言处理等任务的多样化架构的井井有条的代码。LEMUR 主要旨在使大型语言模型（LLMs）的微调更容易进行AutoML任务，提供丰富的结构化模型表示和相关性能数据。利用 Python 和 PyTorch，LEMUR 使扩展到新数据集和模型变得无缝且保持一致性。它集成了一个由 Optuna 驱动的评估框架、超参数优化、统计分析和图形洞察。LEMUR 提供了一个扩展，使模型能够在边缘设备上高效运行，便于在资源受限的环境中部署。LEMUR 提供了模型评估、预处理和数据库管理的工具，支持研究人员和实践者开发、测试和分析神经网络。此外，它还提供了一个 API，可以通过一个请求提供神经网络模型及其完整性能统计的全面信息，可以在用代码生成大型语言模型的实验中使用。在论文被接受后，LEMUR 将作为 MIT 许可证下的开源项目发布。

发布时间: 4/16/2025

查看原文

MiMu: 减轻 transformers 的多重捷径学习行为

作者: Lili Zhao, Qi Liu, Wei Chen, Liyi Chen, Ruijun Sun, Min Hou, Yang Wang, Shijin Wang

arXiv:2504.10551v1 类型: cross 摘要: 在学习过程中，经验风险最小化（ERM）模型往往依赖于特征与标签之间的一些虚假相关性，导致出现捷径学习行为，这会削弱其泛化性能的鲁棒性。当前的研究主要集中在识别或减轻单一捷径，但在现实场景中，数据中的线索是多样化且未知的。在实验研究中，我们发现模型在不同程度上依赖于不同的捷径。与弱捷径相比，模型更依赖于强捷径，导致其泛化能力较差。为了解决这些挑战，我们提出了一种名为MiMu的新方法，这是一种基于Transformer的ERM方法，旨在减轻多重捷径学习行为，它结合了自我校准策略和自我改进策略。在源模型中，我们初步提出了自我校准策略，以防止模型过度依赖捷径并做出过于自信的预测。然后，在目标模型中，我们进一步设计了自我改进策略，以减少对多个捷径的依赖。随机掩码策略涉及随机掩蔽部分注意力位置，使目标模型关注多样化的内容，而非集中在固定区域。同时，自适应注意力对齐模块使注意力权重与校准后的源模型对齐，无需后续的注意力图或监督。最后，我们在自然语言处理（NLP）和计算机视觉（CV）领域的广泛实验表明，MiMu在提高泛化性能的鲁棒性方面具有有效性。

发布时间: 4/16/2025

查看原文

COBOL到Java转换的自动化测试

作者: Sandeep Hans, Atul Kumar, Toshikai Yasue, Kouichi Ono, Saravanan Krishnan, Devika Sondhi, Fumiko Satoh, Gerald Mitchell, Sachin Kumar, Diptikalyan Saha

arXiv:2504.10548v1 Announce Type: cross 摘要：基于大语言模型（LLM）的生成人工智能技术的最新进展使得从COBOL等过时语言到现代语言如Java或Python翻译企业级代码成为可能。虽然基于LLM的自动转换结果令人鼓舞，但生成的代码无法确保正确地翻译原始代码，因此验证翻译成Java的COBOL代码的准确性成为一种必要但耗时且劳动密集的过程。在本文中，我们分享了为IBM Watsonx Code Assistant for Z（WCA4Z）[5]开发的一个测试框架的经验，WCA4Z是一款专门用于COBOL到Java翻译的工业工具。该框架在工业环境中自动化了验证翻译后的Java代码与原始COBOL程序功能等价的过程。该框架使用符号执行为COBOL生成单元测试，模拟外部调用并将其转换为JUnit测试，以验证与翻译后的Java代码的语义等价性。这些结果不仅有助于识别并修复任何检测到的差异，还可以为改进AI模型提供反馈。

发布时间: 4/16/2025

查看原文

多模态超图增强的LLM学习推荐

作者: Xu Guo, Tong Zhang, Yuanzhi Wang, Chenxu Wang, Fuyun Wang, Xudong Wang, Xiaoya Zhang, Xin Liu, Zhen Cui

arXiv:2504.10541v1 类型: cross 摘要：大型语言模型（LLM）的日益增长的出现正在推动个性化推荐系统的开发。现有的大多数基于LLM的方法未能充分探索推荐场景内在的多视图图形结构相关性。为了解决这一问题，我们提出了一种名为Hypergraph Enhanced LLM Learning for multimodal Recommendation（HeLLM）的新框架，旨在通过将图形层面的上下文信号与序列层面的行为模式融合，使LLM具备捕捉复杂高阶语义相关性的能力。在推荐系统的预训练阶段，我们设计了一个用户超图来揭示用户之间的共通兴趣偏好，并设计了一个物品超图来捕捉物品在多模态相似性内的相关性。引入了超图卷积和协同对比学习机制，以增强学习表示的区分性。在LLM微调阶段，我们将学习到的图结构嵌入直接注入到LLM的结构中，并整合了捕捉每个用户历史行为的序贯特征。这一过程使超图能够利用图结构信息作为全局上下文，增强LLM识别复杂关系模式和整合多模态信息的能力，同时建模局部时间动态。广泛的实验证明了我们提出的方法优于现有的基准方法，证实了在LLM中融合基于超图的上下文与序贯用户行为的优势，用于推荐。

发布时间: 4/16/2025

查看原文

AB-Cache：通过Adam-Bashforth缓存特征重用加速无训练扩散模型

作者: Zichao Yu, Zhen Zou, Guojiang Shao, Chengwei Zhang, Shengze Xu, Jie Huang, Feng Zhao, Xiaodong Cun, Wenyi Zhang

arXiv:2504.10540v1 交叉公告类型摘要：扩散模型在生成任务中表现出了显著的成功，但它们的去噪迭代过程导致了缓慢的推理，限制了它们的实际应用。尽管现有的加速方法通过缓存机制利用了相邻步骤间众所周知的U形相似模式，但这些方法缺乏理论基础，并且依赖于简单的计算重用，这往往会导致性能下降。在本文中，我们通过分析差分格式中的亚当斯-巴舍forth法的第二阶方法，提供了一种理论理解，揭示了连续步骤输出之间存在线性关系，解释了相邻步骤输出为什么呈现出U形模式。此外，将亚当斯-巴舍forth法扩展到更高阶，我们提出了一种基于缓存的新型加速方法，而不是直接重用缓存结果，误差截断误差界为\(O(h^k)\)，其中\(h\)是步长。在不同的图像和视频扩散模型（包括HunyuanVideo和FLUX.1-dev）以及各种调度器上进行的广泛验证表明，我们的方法在实现接近三倍的加速的同时，保持了原始性能水平，提供了一种不会牺牲生成质量的实用实时解决方案。

发布时间: 4/16/2025

查看原文