arXiv 论文列表

作者: Ziqi Ding, Qian Fu, Junchen Ding, Gelei Deng, Yi Liu, Yuekang Li

arXiv:2505.01067v1 Announce Type: 横跨领域摘要：大型语言模型（LLMs）的近期进步促成了从代码生成、视频编辑到文本生成等各种AI应用的发展；然而，像Hugging Face这样的AI供链，它们托管了由公众贡献的预训练模型及其相关配置文件，面临着重大的安全挑战；特别是，原本用于通过指定参数和初始设置来设置模型的配置文件，可能会被利用来执行未经授权的代码，但现有研究相对于模型本身的安全性而言，对这些配置文件的安全性研究相对较少；在本项工作中，我们首次对Hugging Face上的恶意配置进行了全面的研究，识别出三种攻击场景（文件、网站和仓库操作），这些场景揭示了固有的风险；为了应对这些威胁，我们引入了CONFIGSCAN，这是一种基于LLM的工具，它在关联的运行时代码和关键库的背景下分析配置文件，能够以低误报率和高准确率检测可疑元素；我们的广泛评估发现了数千个可疑的仓库和配置文件，突显了增强AI模型托管平台安全验证的紧迫需求。

发布时间: 5/5/2025

查看原文

对于脚本小子是好消息吗？评估自动化exploit生成的大语言模型

作者: David Jin, Qian Fu, Yuekang Li

arXiv:2505.01065v1 安全公告类型：交叉摘要：大型语言模型（LLMs）在代码相关任务上展现了惊人的能力，引发了对其在自动化利用生成（AEG）方面潜在风险的担忧。本文首次系统地研究了LLMs在AEG方面的有效性，评估了它们的合作能力和技术水平。为减轻数据集偏差，我们引入了一个基准，其中包含五个软件安全实验室的重新整理版本。此外，我们设计了一个基于LLM的攻击者，系统地提示LLM进行利用生成。我们的实验表明，GPT-4和GPT-4o在合作性方面表现出高水平，与未经审查的模型相当，而Llama3最具有抵抗力。然而，没有一个模型能够成功生成重新整理实验室的利用，尽管GPT-4o的最小错误表明LLM驱动的AEG有望取得进展。

发布时间: 5/5/2025

查看原文

模型张量规划

作者: An T. Le, Khai Nguyen, Minh Nhat Vu, Jo\~ao Carvalho, Jan Peters

arXiv:2505.01059v1 类型: cross 摘要: 基于采样的模型预测控制(MPC)在非线性和接触密集型的机器人任务中表现出色，但常常因局部贪婪的采样方案而遭受探索不足的问题。我们提出了\emph{模型张量规划}(MTP)，一种新颖的基于采样的MPC框架，通过结构化张量采样引入高熵控制轨迹生成。通过在随机化的混合簇图上采样，并使用B样条和Akima样条插值控制轨迹，MTP 确保了平滑且全局多样化的控制候选方案。我们还提出了一种简单的$\beta$-混合策略，在修改后的交叉熵法(CEM)更新中混合局部探索性和全局探索性的样本，平衡控制细化和探索。理论上，我们证明了在张量深度和宽度趋向无限时，MTP 实现了轨迹的渐近覆盖和控制轨迹空间的最大熵。我们的实现使用JAX完全矢量化，并与MuJoCo XLA兼容，支持 \emph{Just-in-time} (JIT) 编译和批量滚动部署，用于实时控制并支持在线领域随机化。通过在各种具有挑战性的机器人任务上的实验，包括灵巧的在手操作到类人行走，我们展示了MTP在任务成功率和控制鲁棒性上优于标准MPC和进化策略基线。设计和灵敏度消融实验确认了MTP张量采样结构、样条插值选择和混合策略的有效性。总的来说，MTP提供了一个在基于模型的规划和控制中进行稳健探索的可扩展框架。

发布时间: 5/5/2025

查看原文

大规模语言模型的低精度训练：方法、挑战与机遇

作者: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao

arXiv:2505.01043v1 通知类型: 交叉学科摘要：大规模语言模型（LLMs）在各个领域都取得了 impressive 的性能。然而，它们在训练过程中所需的大量硬件资源成为效率和扩展性的一个显著障碍。为应对这一挑战，低精度训练技术被广泛采用，这显著提升了训练效率。尽管这些进展取得了一定成果，但是在低精度训练过程中，各个组成部分（如权重、激活和梯度）可以表示为不同的数值格式，这种多样性导致了低精度训练研究领域的碎片化，使得研究人员难以获得一个统一的整体概述。本文综述了现有的低精度训练方法。为了系统地组织这些方法，我们根据其基础数值格式将它们分为三个主要类别，这种基础数值格式是影响硬件兼容性、计算效率和易读性的关键因素。这些类别包括：（1）定点和基于整数的方法，（2）基于浮点数的方法，以及（3）基于定制格式的方法。此外，我们讨论了量化感知训练方法，它们在前向传播过程中与低精度训练有关键相似之处。最后，我们指出了几个有望推动该领域发展的研究方向。本文讨论的相关论文集合可以在 https://github.com/Hao840/Awesome-Low-Precision-Training 查看。

发布时间: 5/5/2025

查看原文

进化算法中的停滞：收敛 ≠ 最优解

作者: Xiaojun Zhou

arXiv:2505.01036v1 Announce Type: 穿越摘要：在进化计算领域，普遍认为停滞会妨碍进化算法的收敛，并且收敛本质上意味着最优性。然而，这种观点是误导性的。在此研究中，这是首次强调个体的停滞实际上可以促进整个种群的收敛，而且收敛并不一定意味着最优性，甚至不意味着局部最优性。单独的收敛不足以保证进化算法的有效性。提供了一些反例来说明这一论点。

发布时间: 5/5/2025

查看原文

不忘记微调：YOLOv8 的适应保持 COCO 性能

作者: Vishal Gandhi, Sagar Gandhi

arXiv:2505.01016v1 宣言类型: cross 摘要：大型预训练对象检测器的成功在于其对多样化的下游任务的适应能力。尽管微调是标准的适应方法，但对于具有挑战性的细分类别领域，这些模型需要精心考虑特征的粒度。关键问题在于：在优化专门任务的同时，预训练骨干网络应该微调多深入，以最大化原始通用能力的保留，而不发生灾难性遗忘？为解决这一问题，我们进行了一项系统性的实证研究，评估了微调深度的影响。我们通过逐步解冻骨干层（在第22层、第15层和第10层冻结点）并进行训练，将标准的YOLOv8n模型适应到一个自定义的细粒度水果检测数据集。性能在目标水果数据集上进行了严格的评估，并通过双头评估架构，在原始COCO验证集上进行了评估。我们的结果显示，与仅训练头部相比，微调至第10层的深度微调在细粒度水果任务上的性能显著提高（例如，绝对mAP50增益达到10%）。令人惊讶的是，在所有测试的冻结级别上，这种显著的适应和专业化对COCO基准测试的性能降级几乎可以忽略不计（绝对mAP差异小于0.1%）。我们得出结论，适应中到晚期的骨干特征对于细粒度专业化非常有效。关键的是，我们的结果证明，可以在没有通常预期的灾难性遗忘惩罚的情况下实现这种适应，这为探索更深的微调策略提供了有力的依据，特别是在针对复杂领域或在最大化专业化性能方面尤为重要。

发布时间: 5/5/2025

查看原文

价值观画像：基于人类对齐基准理解LLMs的价值观

作者: Jongwook Han, Dongmin Choi, Woojung Song, Eun-Ju Lee, Yohan Jo

arXiv:2505.01015v1 声明类型: cross 摘要：由于需要更加真实和人类导向的响应，基准测试在评估语言模型的价值方面的重要性得到了强调。然而，现有的基准测试依赖于人类或机器注释，这些注释容易受到价值相关的偏差影响。此外，测试场景往往与模型在现实世界中生成文本和表达价值观时常用的场景相偏离。为了解决这些问题，我们提出了价值肖像基准，这是一个可靠的价值导向评估框架，具有两个关键特征。首先，该基准由捕捉现实生活中的用户-语言模型交互的项目组成，增强了评估结果与现实世界语言模型使用的相关性，从而提高生态效度。其次，每个项目都是根据其与个人思考的相似性由人类受试者进行评分，由此得出这些评分与受试者实际价值观得分之间的相关性。通过验证性的心理测量方法，确保与特定价值观高度相关的项目成为评估这些价值观的可靠项目。通过使用我们的基准测试评估27个语言模型，我们发现这些模型更注重仁慈、安全和个人导向的价值，而较少关注传统、权力和成就价值。此外，我们的分析揭示了语言模型在看待各种人口群体方面存在偏差，与真实人类数据有所偏离。

发布时间: 5/5/2025

查看原文

Towards Neural网络水印对微调的抵抗力

作者: Ling Tang, Yuefeng Chen, Hui Xue, Quanshi Zhang

arXiv:2505.01007v1 宣告类型: cross 摘要：本文提出了一种新的水印方法，将所有权信息嵌入到深度神经网络（DNN）中，并且该方法在微调过程中具有鲁棒性。具体而言，当卷积层的输入特征仅包含低频成分时，我们证明了卷积滤波器的特定频率成分在微调过程中不会通过梯度下降改变，我们提出了一种修订后的傅里叶变换来从卷积滤波器中提取频率成分。此外，我们还证明了这些频率成分对于权重缩放和权重排列是不变的。通过这种方式，我们设计了一个水印模块，将水印信息编码到卷积滤波器的特定频率成分中。初步实验表明了我们方法的有效性。

发布时间: 5/5/2025

查看原文

面向数据导向的图学习：一种基于熵的方法

作者: Xunkai Li, Zhengyu Wu, Kaichi Yu, Hongchao Qin, Guang Zeng, Rong-Hua Li, Guoren Wang

arXiv:2505.00983v1 Announce Type: cross 摘要：有向图（有向图），作为无向图的推广，在建模复杂拓扑系统方面表现出卓越的表示能力，并且近年来引起了相当大的关注。尽管现有的有向图神经网络（DiGNNs）已经试图利用有向边，但它们仍然未能全面探索有向图中隐藏的丰富数据知识。这种数据层面的限制导致模型层面的预测性能欠佳，并强调了从数据导向的角度进一步探索有向边（拓扑）与节点配置文件（特征和标签）之间的潜在关联的必要性，从而增强以模型为中心的神经网络的编码能力。在这篇论文中，我们提出了**E**算**D**法驱**E**动的**N**图知识提炼（EDEN），它可以作为数据导向的有向图学习范式或一个模型无关的插拔式数据导向的知识提炼（KD）模块。核心思想是通过我们提出的层次编码理论来实现数据导向的机器学习，该理论用于结构化数据。具体而言，EDEN 首先从拓扑视角利用有向结构度量来构建粗粒度的层次知识树（HKT）。随后，EDEN 量化节点配置文件之间的互信息以在 HKT 中细化知识流，从而在模型训练中实现数据导向的 KD 监督。作为一种通用框架，EDEN 也可以自然地扩展到无向场景并表现出令人满意的表现。在我们的实验中，EDEN 已经在 14 个（有向）图数据集中（同质性和异质性）以及 4 个下游任务中进行了广泛评估。结果表明，EDEN 获得了最先进的性能，并显著改进了流行的（有向）图神经网络。

发布时间: 5/5/2025

查看原文

基于图的合成：面向大型语言模型连续预训练的知识性合成数据生成

作者: Xuhui Jiang, Shengjie Ma, Chengjin Xu, Cehao Yang, Liyu Zhang, Jian Guo

arXiv:2505.00979v1 宣布类型: cross 摘要：大型语言模型（LLMs）已经取得了令人瞩目的成就，但在从少量的专业语料库中学习时，尤其是在有限且未经公开的数据情况下，它们仍然表现出数据效率低的问题。现有的继续预训练的合成数据生成方法主要关注文档内部的内容，而忽视了跨文档的知识关联，这限制了内容的多样性和深度。我们提出了一种名为Synthetic-on-Graph（SoG）的合成数据生成框架，该框架结合了跨文档的知识关联，以实现高效语料库扩展。SoG通过从原始语料库中提取实体和概念来构建上下文图，表示跨文档的关联，并采用图行走策略进行知识关联采样。这增强了合成数据的多样性和连贯性，使模型能够学习复杂的知识结构并处理罕见的知识。为了进一步提高合成数据的质量，我们结合了Chain-of-Thought（CoT）和Contrastive Clarifying（CC）合成方法，增强了推理过程和鉴别能力。实验结果显示，在多跳文档问答数据集中，SoG 的性能优于最先进的方法（SOTA），而在阅读理解任务数据集中，SoG 的表现与SOTA方法相当，这进一步突显了SoG更好的泛化能力。我们的工作推进了合成数据生成，并为LLMs在数据可用性有限的领域提供了实用的解决方案，特别是在知识获取方面。

发布时间: 5/5/2025

查看原文