arXiv 论文列表

作者: Hongxu Chen, Runshi Li, Bowei Zhu, Zhen Wang, Long Chen

arXiv:2411.15231v2 宣布类型: replace-cross 摘要：低秩适应（LoRA）广泛用于跨各种领域对大型模型进行微调，以适应特定的下游任务。虽然特定任务的LoRA通常可用，但关于数据隐私和知识产权的担忧会限制访问训练数据，从而限制通过梯度训练获得多任务模型的机会。为应对这一挑战，LoRA合并提供了一种有效解决方案，即通过结合多个LoRA进入一个统一的适配器，同时保持数据隐私。先前关于LoRA合并的工作主要将其框架化为一个优化问题，但这些方法面临一些限制，包括优化中粗糙的输入特征假设、庞大的样本需求以及目标函数的不平衡性。这些限制可能会显著降低性能。为解决这些问题，我们提出了一种新的基于优化的方法，名为IterIS：1）我们将LoRA合并形式化为一个先进的优化问题，以缓解粗糙的输入特征假设。此外，我们在算法中采用了迭代推理求解框架，可以逐步细化优化目标以提高性能。2）我们引入了一种高效的正则化项，以减少庞大的样本需求（与先前方法相比，仅需要1-5%的无标签样本）。3）我们在优化目标中使用自适应权重，以缓解LoRA合并过程中的潜在不平衡性。我们的方法在文本到图像扩散任务、视觉语言模型和大型语言模型的组成任务方面，在多个基准和最先进的方法上显示出显著的性能提高。此外，我们的逐层算法可以通过极少量的步骤达到收敛，确保在内存和计算上都具有高效性。

发布时间: 4/16/2025

查看原文

安全的文本到图像生成：只需 sanitization 键入提示嵌入

作者: Huming Qiu, Guanxu Chen, Mi Zhang, Xiaohan Zhang, Xiaoyu You, Min Yang

arXiv:2411.10329v2 公告类型: replace-cross 摘要: 近年来，文本到图像（T2I）生成模型在生成高质量且符合文本描述的图像方面取得了显著进展。然而，这些模型也面临着不安全生成的风险，可能会产生违反使用政策的内容，例如明确的材料。现有的安全生成方法通常专注于通过消除视觉表示中的不必要概念来抑制不适当的内容，而忽视了净化文本表示。尽管这些方法在一定程度上减轻了滥用的风险，但它们在应对对抗攻击时的鲁棒性仍然不够。鉴于输入文本与输出图像之间的语义一致性是T2I模型的核心要求，我们发现文本表示可能是不安全生成的主要来源。为此，我们提出了嵌入净化器（ES），它通过净化提示嵌入中的不适当概念来增强T2I模型的安全性。据我们所知，ES 是第一个可解释的安全生成框架，它为每个提示词分配一个分数，以指示其潜在的有害性。此外，ES 采用了即插即用模块化设计，提供了与其他T2I模型和其它防护措施无缝集成的兼容性。在五个提示基准上的评估显示，ES 在鲁棒性方面明显优于现有的十一种防护基线，同时保持了高质量的图像生成。

发布时间: 4/16/2025

查看原文

基于神经网络的树模型替代方案

作者: Salvatore Raieli, Nathalie Jeanray, St\'ephane Gerart, Sebastien Vachenc, Abdulrahman Altahhan

arXiv:2410.17758v2 通知类型: 替换-交叉引用摘要: 表格数据集在生物学等科学研究领域中广泛使用。尽管这些领域已经采用了AI方法来增强其发现和分析，但由于其可解释性，它们主要使用基于树的方法。同时，人工神经网络已被证明在解决丰富且复杂非表格问题时提供了更高的灵活性和深度，但在表格数据方面，在性能和可解释性方面却落后于基于树的模型。虽然稀疏性已被证明可以提高人工神经网络模型在复杂非表格数据集中的可解释性和性能，但在训练模型之前，通过利用注意力机制在表格数据中引入稀疏性，这一问题仍然存在开放性。为了解决这一问题，我们建立了一种方法，通过利用注意力机制来捕捉表格数据中特征的重要性，从而在神经网络中注入稀疏性。我们展示了我们的模型，Sparse TABular NET或sTAB-Net，结合了注意力机制，在生物数据集上达到了最先进的水平。此外，这些模型还允许从这些数据集中提取见解，并在SHAP等事后方法方面取得了更好的性能。

发布时间: 4/16/2025

查看原文

通过自我进化生成 Rust 代码的自动证明生成

作者: Tianyu Chen, Shuai Lu, Shan Lu, Yeyun Gong, Chenyuan Yang, Xuheng Li, Md Rakib Hossain Misu, Hao Yu, Nan Duan, Peng Cheng, Fan Yang, Shuvendu K Lahiri, Tao Xie, Lidong Zhou

arXiv:2410.15756v2 宣布类型: replace-cross 摘要：确保正确性对于代码生成至关重要。正式验证提供了终极的正确性保证，但需要大量的人力在证明构建方面进行工作，因此迫切需要自动化工具。主要障碍在于数据的严重缺乏——为大型语言模型（LLMs）训练的代码片段比人工撰写的证明要少得多。在本文中，我们介绍了SAFE，这是一个框架，它克服了人工撰写的证明不足的问题，以实现对Rust代码自动证明的生成。SAFE 建立了一个自演化循环，其中数据合成和微调协作以增强模型能力，利用符号验证器的最终力量来区分正确的证明和错误的证明。SAFE 还重新利用了大量合成的错误证明来训练微调模型的自我修复能力，使其能够根据验证器的反馈修复错误的证明。与GPT-4o相比，SAFE 在效率和精确性方面表现出优越性。通过成千上万的合成证明和自我修复机制，我们使最初不了解形式验证的开源模型能够自动为Rust代码编写证明。这一进展导致性能有了显著提升，在由人类专家设计的一个基准测试中，实现了52.52%的准确率，这比GPT-4o的14.39%有了显著的提高。

发布时间: 4/16/2025

查看原文

多轮区域优化场景草图生成

作者: Yiqi Liang, Ying Liu, Dandan Long, Ruihui Li

arXiv:2410.04072v2 宣布类型：替换交叉摘要：场景素描是将场景转换为简化和抽象的表示，以捕捉原始场景中的关键元素和布局。它要求对场景进行语义理解，并考虑场景中的不同区域。由于场景中往往包含不同区域的各种视觉信息，如前景对象、背景元素和空间划分等，处理这些不同区域带来了独特挑战。在本文中，我们定义素描为一些贝塞尔曲线的集合，因为它们具有平滑且多功能的特性。我们对输入场景的不同区域进行多轮优化。在每次优化轮次中，从下一个区域采样的笔画可以无缝地整合到上一轮生成的素描中。我们提出了一种额外的笔画初始化方法，以确保场景的完整性和优化的收敛性。我们利用了一种基于CLIP的语义损失和一种基于VGG的特征损失来引导我们的多轮优化。广泛的实验结果证明了我们方法在生成素描的质量和数量方面的有效性。

发布时间: 4/16/2025

查看原文

SCA：高效语义一致无约束对抗攻击

作者: Zihao Pan, Weibin Wu, Yuhang Cao, Zibin Zheng

arXiv:2410.02240v5 通告类型: replace-cross 摘要：部署在敏感环境中的基于深度神经网络的系统容易受到恶意攻击。不受限制的恶意攻击通常通过操纵图像的语义内容（例如颜色或纹理）来创建既有效又具有照片真实感的恶意样本。近期的工作利用扩散反演过程将图像映射到一个潜在空间，在该空间中通过引入扰动来操纵高层语义。然而，这些方法往往会导致去噪输出中产生严重的语义失真，并且效率低下。在本研究中，我们提出了一种名为语义一致的不受限制的对抗攻击（Semantic-Consistent Unrestricted Adversarial Attacks, SCA）的新框架。该框架采用一种反演方法来提取易于编辑的噪声图，并利用多模态大规模语言模型（MLLM）在整个过程中提供语义指导。在MLLM提供的丰富语义信息下，我们使用一系列易于编辑的噪声图逐步进行DDPM去噪过程，并利用DPM Solver++加速这一过程，从而实现具有语义一致性的高效采样。与现有方法相比，我们的框架能够高效地生成语义变化最小的恶意样本。因此，我们首次引入了语义一致的恶意样本（Semantic-Consistent Adversarial Examples, SCAE）。大量实验和可视化结果表明，SCA具有很高的效率，平均而言比现有最先进的攻击方法快12倍。我们的研究还能进一步引起对多媒体信息安全性问题的关注。

发布时间: 4/16/2025

查看原文

OmniXAS：一种通用的材料X射线吸收光谱深度学习框架

作者: Shubha R. Kharel, Fanchen Meng, Xiaohui Qu, Matthew R. Carbone, Deyu Lu

arXiv:2409.19552v3 Announce Type: replace-cross 摘要：X射线吸收光谱学（XAS）是一种用于探测吸收原子局部化学环境的强大表征技术。然而，分析XAS数据面临着显著的挑战，往往需要进行广泛的、计算密集型的模拟以及丰富的领域专业知识。这些限制阻碍了快速、稳健的XAS分析管道的发展，这些管道在高通量研究和自主实验中至关重要。我们通过OmniXAS框架解决了这些挑战，该框架包含了一系列用于XAS预测的转移学习方法，每个方法都提高了准确性和效率，并在涵盖八种3d过渡金属（Ti-Cu）的K边光谱数据库上进行了演示。OmniXAS框架基于三种不同的策略。首先，我们使用M3GNet来推导吸收位点局部化学环境的潜在表示，作为XAS预测的输入，相比传统特征化技术，实现了多达数量级的改进。其次，我们采用了一种分层转移学习策略，在元素间训练一个通用的多任务模型，然后再进行元素特异性微调。基于这种级联方法，微调后的模型在元素特异性模型上的表现比后者高出69%。第三，我们实现了跨保真度转移学习，针对不同保真度但计算成本更高的模拟生成的光谱来调整通用模型。该方法在仅使用目标保真度训练模型的基础上，提高了预测准确性高达11%。我们的方法相对于第一性原理模拟将XAS建模的吞吐量提升了数量级，并且可以扩展到更广泛的元素的XAS预测。这种转移学习框架可以推广到增强材料研究中其他性质的深度学习模型。

发布时间: 4/16/2025

查看原文

SpoofCeleb：语音深度伪造检测和野生环境下的连续说话人认证

作者: Jee-weon Jung, Yihan Wu, Xin Wang, Ji-Hoon Kim, Soumi Maiti, Yuta Matsunaga, Hye-jin Shim, Jinchuan Tian, Nicholas Evans, Joon Son Chung, Wangyou Zhang, Seyun Um, Shinnosuke Takamichi, Shinji Watanabe

arXiv:2409.17285v2 宣告类型: replace-cross 摘要：本文介绍了SpoofCeleb，一个用于语音深度伪造检测（SDD）和抗欺骗自动说话人验证（SASV）的数据集，利用了来自真实世界条件的源数据和由同样基于真实数据训练的文本到语音（TTS）系统生成的欺骗攻击。稳健的识别系统需要在各种声学环境中录制的不同噪声水平的语音数据进行训练。然而，目前的大多数数据集通常包括干净、高质量的录音（bona fide数据），因为TTS训练对数据质量有要求；通常需要高质量录音的朗读语音来训练TTS模型。当前的SDD数据集由于说话人多样性不足，对于训练SASV模型的实用性也有限。SpoofCeleb利用我们开发的完全自动化流程，处理了VoxCeleb1数据集，使其适合TTS训练。随后，我们训练了23个现代TTS系统。SpoofCeleb包含来自1251位独特说话人的超过250万条语句，这些语句是在自然的真实世界条件下收集的。该数据集包括精心划分的训练、验证和评估集，并采用严格的实验协议。我们还介绍了SDD和SASV任务的基准结果。所有数据、协议和基准都可以在https://jungjee.github.io/spoofceleb 公开获取。

发布时间: 4/16/2025

查看原文

毒化工艺：一种新型的合成生成有害信息的框架

作者: Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Congrui Huang

arXiv:2409.14740v2 Announce Type: replace-cross 摘要：在不同的自然语言处理任务中，在线环境中检测有害内容至关重要，尤其是在社交媒体日益影响社会的情况下。然而，之前的研究所存在的主要问题有两个：1) 资源稀缺环境下的数据不足，以及2) 判断有害内容的标准和定义不一致，这要求分类模型能够抵御虚假特征并适应多种情况。我们提出了Toxicraft，一种新型框架，用于合成有害信息的数据集以解决这些弱点。仅使用少量种子数据，我们的框架可以生成多种多样但极为逼真的有害信息示例。在不同数据集上的实验展示了检测模型的显著增强的稳健性和适应性，超过了或接近于黄金标准。

发布时间: 4/16/2025

查看原文

保护医疗预训练语言模型的版权：无需训练的后门模型水印

作者: Cong Kong, Rui Xu, Weixi Chen, Jiawei Chen, Zhaoxia Yin

arXiv:2409.10570v2 宣布类型: replace-cross 摘要：随着智能医疗的发展，医学预训练语言模型（Med-PLMs）已经出现并证明了在下游医疗任务中具有显著的有效性。虽然这些模型是宝贵的资产，但它们容易被误用和盗用，需要版权保护。然而，现有的预训练语言模型（PLMs）水印方法无法直接应用于Med-PLMs，因为存在领域任务不匹配且水印嵌入效率低下。为了解决这一问题，我们提出了第一个无需训练的后门模型水印方法，适用于Med-PLMs。该方法使用低频词作为触发词，在模型的词嵌入层中用特定医学术语的嵌入替换触发词的嵌入，使带有水印的Med-PLMs在触发词上的输出与对应的指定医学术语相同。我们利用这种独特的映射设计针对不同下游任务的定制水印提取方案，从而解决了以前方法中的领域任务不匹配问题。实验结果表明，在医疗下游任务中，我们的水印方法具有优越的有效性。此外，该方法对模型提取、剪枝基于融合的后门移除攻击表现出良好的稳健性，同时保持高效率，嵌入水印仅需10秒。

发布时间: 4/16/2025

查看原文