arXiv 论文列表

作者: Junda Wu, Warren Li, Zachary Novack, Amit Namburi, Carol Chen, Julian McAuley

对音频波形进行表示学习时，对时间特征进行建模至关重要。我们提出了对比式长文本语言-音频预训练（**CoLLAP**），以显著扩展输入音频（最长 5 分钟）和语言描述（超过 250 个词）的感知窗口，同时实现跨模态和时间动态的对比学习。利用最近的音乐-LLM 为完整歌曲生成长文本音乐字幕，并辅以音乐时间结构，我们从大规模 AudioSet 训练数据集收集了 51.3K 个音频-文本对，其中平均音频长度达到 288 秒。我们提出了一种新颖的对比学习架构，通过将每首歌曲分割成片段并提取其嵌入来融合语言表示和结构化音频表示。利用注意力机制，我们捕捉到多模态时间相关性，使模型能够自动权衡和增强最终融合分数，以实现更好的对比对齐。最后，我们开发了两种具有不同类型骨干语言模型的 CoLLAP 模型变体。通过对多个长文本音乐-文本检索数据集进行的综合实验，我们证明了与基线相比，检索精度始终得到提升。我们还展示了预训练的 CoLLAP 模型可以转移到各种音乐信息检索任务中，具有异构的长文本多模态上下文。

发布时间: 10/4/2024

查看原文

基于结构熵的样本选择方法，实现高效且有效的学习

作者: Tianchi Xie, Jiangning Zhu, Guozu Ma, Minzhi Lin, Wei Chen, Weikai Yang, Shixia Liu

样本选择通过提供信息丰富且具有代表性的样本，提高了机器学习模型的效率和有效性。通常，样本可以建模为样本图，其中节点是样本，边表示它们的相似性。大多数现有方法基于局部信息，例如样本的训练难度，从而忽略了全局信息，例如连通性模式。这种疏忽会导致次优选择，因为全局信息对于确保所选样本能很好地反映图的结构特性至关重要。为了解决这个问题，我们采用结构熵来量化全局信息，并利用 Shapley 值将其从整个图无损地分解到各个节点。基于这种分解，我们提出了**结构熵样本选择 (SES)**，这是一种将全局和局部信息相结合以选择信息丰富且具有代表性的样本的方法。SES 首先基于样本之间的相似性构建一个 kNN 图。然后，它通过将结构熵（全局指标）与训练难度（局部指标）相结合来衡量样本的重要性。最后，SES 应用重要性偏差蓝噪声采样来选择一组多样化且具有代表性的样本。在监督学习、主动学习和持续学习这三种学习场景中的综合实验清楚地证明了我们方法的有效性。

发布时间: 10/4/2024

查看原文

PFGuard：一个具有隐私和公平保障的生成式框架

作者: Soyeon Kim, Yuji Roh, Geon Heo, Steven Euijong Whang

为了构建可信赖的 AI，生成模型必须确保隐私和公平性。虽然这两个目标通常被分别追求，但最近的研究提出将现有的隐私和公平技术结合起来以实现这两个目标。然而，简单地将这些技术结合起来可能不足，因为隐私和公平之间存在冲突，即少数群体中的样本可能为了公平而被放大，但为了隐私而被抑制。我们证明了这些冲突会导致不利影响，例如隐私侵犯和意想不到的公平性-效用权衡。为了减轻这些风险，我们提出了 PFGuard，这是一个具有隐私和公平保障的生成框架，它同时解决了隐私、公平性和效用问题。通过使用多个教师模型的集成，PFGuard 在公平训练阶段和隐私训练阶段之间平衡了隐私-公平冲突，并基于集成学习实现了高效用。大量的实验表明，PFGuard 成功地生成了高维数据的合成数据，同时提供了公平收敛和严格的 DP 保证——据我们所知，这是第一个此类框架。

发布时间: 10/4/2024

查看原文

固定点分析下tanh神经网络的鲁棒权重初始化

作者: Hyunwoo Lee, Hayoung Choi, Hyunju Kim

随着神经网络深度的增加，其泛化性能可以得到显著提升。然而，由于梯度问题，训练变得极具挑战性。已有理论研究和各种方法被提出以解决这些问题。然而，针对不同尺寸的 tanh 神经网络的有效权重初始化方法的研究尚待完善。本文提出了一种针对具有 tanh 激活函数的前馈神经网络的新型权重初始化方法。基于对函数 $\tanh(ax)$ 的不动点的分析，我们提出的方法旨在确定 $a$ 的值，以防止激活饱和。在一系列不同分类数据集上的实验表明，该方法比现有方法对网络尺寸变化更具鲁棒性。此外，当应用于物理信息神经网络时，该方法在偏微分方程问题中表现出比 Xavier 初始化更快的收敛速度和对网络尺寸变化的鲁棒性。

发布时间: 10/4/2024

查看原文

SCA：高效的语义一致无限制对抗攻击

作者: Zihao Pan, Weibin Wu, Yuhang Cao, Zibin Zheng

无限制对抗攻击通常通过操纵图像的语义内容（例如颜色或纹理）来创建既有效又逼真的对抗样本。最近的研究利用扩散反转过程将图像映射到潜在空间，并在其中通过引入扰动来操纵高级语义。然而，它们通常会导致去噪输出中出现大量语义失真，并且效率低下。在本研究中，我们提出了一种名为语义一致无限制对抗攻击（SCA）的新框架，该框架采用反转方法来提取易于编辑的噪声图，并利用多模态大型语言模型（MLLM）在整个过程中提供语义指导。在 MLLM 提供丰富语义信息的情况下，我们使用一系列易于编辑的噪声图执行每个步骤的 DDPM 去噪过程，并利用 DPM Solver++ 加速此过程，从而实现具有语义一致性的高效采样。与现有方法相比，我们的框架能够高效生成对抗样本，这些样本表现出最小的可辨别语义变化。因此，我们首次引入了语义一致对抗样本（SCAE）。大量的实验和可视化证明了 SCA 的高效率，特别是在平均速度比最先进的攻击快 12 倍的情况下。我们的代码可以在 https://github.com/Pan-Zihao/SCA}{https://github.com/Pan-Zihao/SCA 找到。

发布时间: 10/4/2024

查看原文

EmbedLLM：学习大型语言模型的紧凑表示

作者: Richard Zhuang, Tianhao Wu, Zhaojin Wen, Andrew Li, Jiantao Jiao, Kannan Ramchandran

随着 Huggingface 上已有数十万种语言模型，有效地评估和利用这些模型来完成各种下游任务变得越来越重要。许多现有的方法反复学习大型语言模型 (LLM) 的特定于任务的表示，这导致了时间和计算资源的低效率。为了解决这个问题，我们提出了 EmbedLLM，一个旨在学习 LLM 的紧凑向量表示的框架，该框架可以促进涉及许多模型的下游应用，例如模型路由。我们介绍了一种用于学习此类嵌入的编码器-解码器方法，以及一个系统框架来评估其有效性。实证结果表明，EmbedLLM 在模型路由的准确性和延迟方面都优于先前的方法。此外，我们证明了我们的方法可以在不产生额外推理成本的情况下预测模型在多个基准上的性能。广泛的探测实验验证了所学习的嵌入捕获了关键的模型特征，例如模型是否专门用于编码任务，即使没有明确地对它们进行训练。我们开源了我们的数据集、代码和嵌入器，以促进进一步的研究和应用。

发布时间: 10/4/2024

查看原文

系好安全带：通过数据整理在每个定制阶段增强大型语言模型的鲁棒性

作者: Xiaoqun Liu, Jiacheng Liang, Luoxi Tang, Chenyu You, Muchao Ye, Zhaohan Xi

大型语言模型（LLMs）通过被称为“定制”的过程广泛地应用于下游应用，微调是整合领域特定专业知识的常用方法。然而，最近的研究表明，用恶意样本微调 LLMs 会损害其鲁棒性并放大有害内容，这种攻击被称为“越狱”。为了缓解这种攻击，我们提出了一种有效的防御框架，利用数据整理来修改常识文本并从 LLMs 的角度增强其安全性。整理后的文本可以在定制过程的每个阶段缓解越狱攻击：在定制之前，使 LLMs 免受未来越狱攻击的影响；在定制期间，消除越狱风险；或在定制之后，恢复受损模型。由于整理后的数据通过标准微调工作流程增强了 LLMs，因此我们在 LLM 推理过程中没有引入额外的模块，从而保留了原始的定制过程。实验结果表明，越狱效果大幅度降低，生成负责任响应的成功率高达 100%。值得注意的是，我们的方法即使使用常识文本也很有效，而常识文本通常比安全相关数据更容易获得。凭借全阶段防御框架和支持的实验性能，这项工作代表了缓解越狱风险和确保 LLMs 安全定制的重要进步。

发布时间: 10/4/2024

查看原文

基于大模型和 VAE 增强的多模态服装推荐模型

作者: Bingjie Huang, Qingyu Lu, Shuaishuai Huang, Xue-she Wang, Haowei Yang

准确地推荐产品一直是需要深入研究的课题。本研究提出了一种针对服装推荐的多模态范式。具体来说，它设计了一种将服装描述文本和图像整合在一起的多模态分析方法，利用预训练的大型语言模型深度挖掘用户和产品的潜在含义。此外，还采用变分编码器来学习用户信息和产品之间的关系，以解决推荐系统中的冷启动问题。本研究还通过大量的消融实验验证了该方法相对于各种推荐系统方法的显著性能优势，为推荐系统的全面优化提供了重要的实践指导。

发布时间: 10/4/2024

查看原文

将“Segment Anything”模型应用于显微镜切片图像中的黑色素瘤分割

作者: Qingyuan Liu, Avideh Zakhor

全幻灯片图像 (WSI) 中的黑色素瘤分割对于预后和关键预后因素（如 Breslow 深度和原发性浸润性肿瘤大小）的测量非常有用。本文提出了一种新方法，该方法使用分割任何物体模型 (SAM) 对显微镜幻灯片图像进行自动黑色素瘤分割。我们的方法采用初始语义分割模型生成初步分割掩码，然后用这些掩码来提示 SAM。我们设计了一种动态提示策略，该策略使用质心和网格提示的组合来实现对超高分辨率幻灯片图像的最佳覆盖，同时保持生成提示的质量。为了优化浸润性黑色素瘤分割，我们通过实施原位黑色素瘤检测和低置信度区域过滤来进一步细化提示生成过程。我们选择 Segformer 作为初始分割模型，选择 EfficientSAM 作为分割任何物体模型，以便进行参数高效微调。我们的实验结果表明，这种方法不仅优于其他最先进的黑色素瘤分割方法，而且在 IoU 方面也明显优于基线 Segformer，提高了 9.1%。

发布时间: 10/4/2024

查看原文

大型语言模型中逻辑一致性的度量、评估和改进

作者: Yinhong Liu, Zhijiang Guo, Tianya Liang, Ehsan Shareghi, Ivan Vuli\'c, Nigel Collier

近年来，大型语言模型（LLM）在与人类偏好对齐方面取得了令人鼓舞的进展。LLM 赋能的决策系统预计将具有可预测性、可靠性和可信度，这意味着它们必须不受可能损害其信誉和有效性的悖论或矛盾的影响。然而，LLM 在做出决策或判断时仍然表现出不一致和偏见的行为。在这项工作中，我们专注于研究 LLM 的逻辑一致性，将其视为构建更可靠和可信系统的先决条件。逻辑一致性确保决策基于对问题的稳定和连贯的理解，从而降低了出现不稳定或矛盾输出的风险。我们首先提出一个通用框架，通过三个基本代理来量化逻辑一致性：传递性、交换性和否定不变性。然后，我们使用定义的指标评估了各种 LLM 的逻辑一致性，证明它可以作为整体鲁棒性的有力代理。此外，我们介绍了一种数据细化和增强技术，可以增强 LLM 的逻辑一致性，而不会牺牲与人类偏好的对齐。它通过使用排序聚合方法来估计部分或完全排序的偏好排名，从而增强了嘈杂和稀疏的成对比较注释。最后，我们表明逻辑一致性会影响基于 LLM 的依赖逻辑算法的性能，其中 LLM 充当逻辑运算符。

发布时间: 10/4/2024

查看原文