arXiv 论文列表

作者: Divya Jyoti Bajpai, Manjesh Kumar Hanawal

深度神经网络 (DNN) 在图像字幕任务中识别视觉元素和生成描述性文本方面取得了显著进展。然而，它们性能的提升源于计算负担的增加和推理延迟。提前退出 (EE) 策略可用于提高其效率，但将其应用于图像字幕存在挑战，因为它需要不同程度的语义信息才能进行准确预测。为了克服这个问题，我们引入了 CAPEEN，利用知识蒸馏来提高 EE 策略的性能。如果预测置信度超过从训练数据中学习的预定义值，则 CAPEEN 的推理将在中间层完成。为了应对目标分布可能偏离训练样本的现实世界部署，我们引入了 A-CAPEEN 变体，使用多臂老虎机框架来动态调整阈值。在 MS COCO 和 Flickr30k 数据集上的实验表明，与最后一层相比，CAPEEN 的速度提高了 1.77 倍，同时保持了具有竞争力的性能，而 A-CAPEEN 额外提供了对失真的鲁棒性。源代码可在 https://github.com/Div290/CapEEN 获取。

发布时间: 10/8/2024

查看原文

DAdEE：早期退出预训练语言模型中的无监督域适应

作者: Divya Jyoti Bajpai, Manjesh Kumar Hanawal

预训练语言模型 (PLMs) 通过自监督学习在各种任务中展现出良好的准确性和泛化能力，但其庞大的规模导致了高推理延迟。早期退出 (EE) 策略通过允许样本从连接到中间层的分类器中退出来解决这个问题，但它们不能很好地泛化，因为退出分类器可能对域变化敏感。为了解决这个问题，我们提出了 EE 框架中的无监督域适应 (DADEE)，该框架利用知识蒸馏进行多级适应。DADEE 在每一层使用基于 GAN 的对抗性适应来实现域不变表示，从而减少了所有层中源域和目标域之间的域差距。附加的退出不仅加快了推理速度，而且通过减少灾难性遗忘和模式崩溃来增强域适应，使其更适合现实世界场景。在情感分析、蕴含分类和自然语言推理等任务上的实验表明，DADEE 在域转移场景下始终优于早期退出方法以及各种域适应方法。匿名源代码可在 https://github.com/Div290/DAdEE 获取。

发布时间: 10/8/2024

查看原文

图像生成中区域原语的解耦

作者: Zhengting Chen, Lei Cheng, Lianghui Ding, Quanshi Zhang

本文提出了一种解释图像生成神经网络内部表示结构的方法。具体而言，我们的方法将原始特征组件从神经网络的中间层特征中分离出来，确保每个特征组件仅用于生成特定的一组图像区域。这样，整个图像的生成就可以被认为是不同预编码的原始区域模式的叠加，每个模式由一个特征组件生成。我们发现，特征组件可以表示为生成不同图像区域的需求之间的“或”关系，这种关系由神经网络编码。因此，我们将 Harsanyi 互动扩展到表示这种“或”互动，从而分离特征组件。实验表明，每个特征组件与特定图像区域的生成之间存在清晰的对应关系。

发布时间: 10/8/2024

查看原文

理解和增强 DNN 模型所有权验证中训练证明的安全性的研究

作者: Yijia Chang, Hanrui Jiang, Chao Lin, Xinyi Huang, Jian Weng

深度神经网络（DNN）巨大的经济价值促使人工智能企业保护其模型的知识产权（IP）。最近，训练证明（PoT）被提出作为一种很有前景的DNN IP保护解决方案，通过它，人工智能企业可以利用DNN训练过程的记录作为其所有权证明。为了防止攻击者伪造所有权证明，安全的PoT方案应该能够区分诚实训练记录和攻击者伪造的训练记录。虽然现有的PoT方案提供了各种区分标准，但这些标准都是基于直觉或观察。这些标准的有效性缺乏清晰而全面的分析，导致最初被认为安全的现有方案很快就被简单的想法所破坏。在本文中，我们首次尝试以形式化方法的方式识别区分标准，以便可以明确地证明其有效性。具体来说，我们进行系统建模以涵盖各种攻击，然后从理论上分析诚实训练记录和伪造训练记录之间的区别。分析结果不仅推导出一个通用的区分标准，而且还提供了详细的推理来证明其在防御我们模型所涵盖的攻击方面的有效性。在该标准的指导下，我们提出了一种通用的PoT构造，可以实例化为具体的方案。这种构造揭示了轨迹匹配算法（之前用于数据蒸馏）在PoT构造中具有显著优势。实验结果表明，我们的方案可以抵抗已经破坏了现有PoT方案的攻击，这证实了它在安全性方面的优越性。

发布时间: 10/8/2024

查看原文

随机 Transformer 的算法能力

作者: Ziqian Zhong, Jacob Andreas

经过训练的 Transformer 模型已被发现能够执行可解释的程序，例如算术和联想记忆，但人们对这些程序的实现电路在训练过程中是如何产生的知之甚少。这些电路在多大程度上依赖于模型的监督信号，以及在多大程度上归因于模型在训练开始时就已存在的行为？为了研究这些问题，我们研究了随机初始化的 Transformer 模型能够学习哪些函数，其中只有嵌入层被优化，因此从数据中学习到的唯一输入-输出映射是那些由随机初始化的模型已经实现的（直到编码方案的选择）。我们发现这些随机 Transformer 能够执行各种有意义的算法任务，包括模运算、权重内和上下文内联想记忆、十进制加法、括号平衡，甚至自然语言文本生成的某些方面。我们的结果表明，即使在模型训练之前，一些算法能力就存在于 Transformer 中（并且可以通过适当结构化的输入访问）。代码可在 https://github.com/fjzzq2002/random_transformers 获取。

发布时间: 10/8/2024

查看原文

RespDiff：一种基于多尺度循环神经网络扩散模型的呼吸波形从PPG信号端到端估计方法

作者: Yuyang Miao, Zehua Chen, Chang Li, Danilo Mandic

呼吸频率 (RR) 作为一项关键的健康指标，通常在不方便的情况下进行监测，限制了其在持续监测中的实用性。光电容积描记术 (PPG) 传感器越来越多地集成到可穿戴设备中，为以便携式方式持续估算 RR 提供了机会。在本文中，我们提出了 RespDiff，这是一种用于从 PPG 信号估计呼吸波形的端到端多尺度 RNN 扩散模型。RespDiff 不需要手工制作的特征或排除低质量信号段，使其适合现实场景。该模型采用多尺度编码器来提取不同分辨率的特征，并使用双向 RNN 处理 PPG 信号并提取呼吸波形。此外，还引入了频谱损失项以进一步优化模型。在 BIDMC 数据集上进行的实验表明，RespDiff 优于以往的显著工作，在 RR 估计方面实现了 1.18 bpm 的平均绝对误差 (MAE)，而其他方法的范围从 1.66 到 2.15 bpm，这表明其在现实世界应用中具有实现稳健且准确的呼吸监测的潜力。

发布时间: 10/8/2024

查看原文

VideoGuide：通过教师引导提升视频扩散模型，无需训练

作者: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye

文本到图像（T2I）扩散模型彻底改变了视觉内容的创作，但将这些能力扩展到文本到视频（T2V）生成仍然是一个挑战，特别是在保持时间一致性方面。现有的旨在提高一致性的方法通常会导致权衡，例如图像质量下降和不切实际的计算时间。为了解决这些问题，我们引入了 VideoGuide，这是一种新颖的框架，它可以增强预训练的 T2V 模型的时间一致性，而无需进行额外的训练或微调。相反，VideoGuide 在推理的早期阶段利用任何预训练的视频扩散模型 (VDM) 或自身作为引导，通过将引导模型的去噪样本插值到采样模型的去噪过程中来提高时间质量。所提出的方法在时间一致性和图像保真度方面带来了显着改进，提供了一种经济高效且实用的解决方案，它协同利用了各种视频扩散模型的优势。此外，我们展示了先验蒸馏，揭示了基础模型可以通过利用所提出的方法中引导模型的优越数据先验来实现增强的文本连贯性。项目页面：http://videoguide2025.github.io/

发布时间: 10/8/2024

查看原文

GenSim：基于大型语言模型的通用社会模拟平台

作者: Jiakai Tang, Heyang Gao, Xuchen Pan, Lei Wang, Haoran Tan, Dawei Gao, Yushuo Chen, Xu Chen, Yankai Lin, Yaliang Li, Bolin Ding, Jingren Zhou, Ji-Rong Wen

随着大型语言模型（LLM）的快速发展，近年来出现了许多利用基于LLM的智能体模拟人类社会行为的很有前景的研究。虽然先前的工作证明了其在各个领域都有巨大的潜力，但其中大部分集中在涉及有限数量智能体的特定场景中，并且缺乏在模拟过程中出现错误时进行调整的能力。为了克服这些局限性，我们提出了一种新颖的基于LLM智能体的模拟平台，名为\textit{GenSim}，该平台： (1) \textbf{抽象出一组通用功能}，简化了定制社会场景的模拟；(2) \textbf{支持十万个智能体}，能够更好地模拟现实世界环境中的大规模人群；(3) \textbf{包含错误校正机制}，以确保更可靠和长期的模拟。为了评估我们的平台，我们评估了大规模智能体模拟的效率以及错误校正机制的有效性。据我们所知，GenSim 代表了基于LLM智能体的一般、大规模且可校正的社会模拟平台的初步尝试，有望进一步推动社会科学领域的发展。

发布时间: 10/8/2024

查看原文

MVP-Bench：大型视觉语言模型能像人类一样进行多层次视觉感知吗？

作者: Guanzhen Li, Yuxi Xie, Min-Yen Kan

人类在多个层面上进行视觉感知，包括低级物体识别和高级语义解释，例如行为理解。低级细节的细微差异会导致高级感知的重大变化。例如，将一个人手中的购物袋替换成枪支，会暗示暴力行为，意味着犯罪或暴力活动。尽管在各种多模态任务中取得了重大进展，但大型视觉语言模型 (LVLMs) 在进行这种多层次视觉感知的能力方面仍未得到探索。为了研究 LVLMs 和人类之间的感知差距，我们引入了 MVP-Bench，这是第一个视觉语言基准，系统地评估了 LVLMs 的低级和高级视觉感知。我们在自然图像和合成图像中构建 MVP-Bench，以研究操纵的内容如何影响模型感知。使用 MVP-Bench，我们诊断了 10 个开源和 2 个闭源 LVLMs 的视觉感知，表明高级感知任务极大地挑战了现有的 LVLMs。最先进的 GPT-4o 在是非问题上的准确率仅为 56%，而在低级场景中则为 74%。此外，自然图像和操纵图像之间的性能差距表明，目前的 LVLMs 在理解合成图像的视觉语义方面不像人类那样具有泛化能力。我们的数据和代码可在 https://github.com/GuanzhenLi/MVP-Bench 上公开获取。

发布时间: 10/8/2024

查看原文

梯度路由：通过掩蔽梯度实现神经网络局部计算

作者: Alex Cloud, Jacob Goldman-Wetzler, Ev\v{z}en Wybitul, Joseph Miller, Alexander Matt Turner

神经网络主要根据其输入和输出进行训练，而忽略其内部机制。这些被忽视的机制决定了对安全至关重要的属性，例如：（i）透明度；（ii）不存在敏感信息或有害功能；以及（iii）目标在训练分布之外的可靠泛化。为了解决这一缺陷，我们引入了梯度路由，这是一种将功能隔离到神经网络特定子区域的训练方法。梯度路由在反向传播期间对梯度应用数据相关的加权掩码。这些掩码由用户提供，以配置哪些参数由哪些数据点更新。我们表明，梯度路由可用于（1）学习以可解释的方式进行划分表示；（2）通过消除预先指定网络子区域来实现鲁棒的遗忘；以及（3）通过定位负责不同行为的模块来实现强化学习者的可扩展监督。在整个过程中，我们发现即使应用于有限的、临时的部分数据，梯度路由也能定位功能。我们得出结论，该方法有望用于数据稀缺的具有挑战性的现实世界应用中。

发布时间: 10/8/2024

查看原文