arXiv 论文列表

作者: Zhe-Rui Yang, Jindong Han, Chang-Dong Wang, Hao Liu

图神经网络（GNN）在处理各种领域的各种图分析任务方面表现出非凡的能力，例如电子商务和社交网络。尽管它们用途广泛，但 GNN 在可迁移性方面面临着重大挑战，限制了它们在现实世界应用中的效用。现有的 GNN 转移学习研究忽略了各种图数据集之间的分布差异，在跨不同分布进行转移时面临挑战。如何有效地将经过良好训练的 GNN 适应具有不同特征和结构分布的新图仍然是一个尚未得到充分探索的问题。借鉴低秩自适应 (LoRA) 在将大型语言模型适应各种领域的成功经验，我们提出了 GraphLoRA，这是一种有效且参数高效的方法，用于将经过良好训练的 GNN 转移到不同的图域。具体来说，我们首先提出了一种结构感知最大平均差异 (SMMD) 来对齐源图和目标图之间不同的节点特征分布。此外，我们通过在预训练 GNN 旁边注入一个小型可训练 GNN 来引入低秩自适应，有效地弥合了结构分布差距，同时减轻了灾难性遗忘。此外，还提出了一个结构感知正则化目标，以增强预训练 GNN 对具有稀疏监督标签的目标图的适应性。在六个真实世界数据集上的大量实验证明了 GraphLoRA 相对于 11 个基线的有效性，即使在不同的图域中，也仅调整了 20% 的参数。代码可在 https://anonymous.4open.science/r/GraphLoRA 获得。

发布时间: 9/26/2024

查看原文

实时无人机跟踪的渐进式表征学习

作者: Changhong Fu, Xiang Lei, Haobo Zuo, Liangliang Yao, Guangze Zheng, Jia Pan

视觉目标跟踪极大地促进了无人机（UAV）的自主应用。然而，在面对长宽比变化和遮挡的复杂动态环境中，学习用于无人机跟踪的鲁棒目标表示尤其具有挑战性。这些挑战严重改变了目标的原始信息。为了解决上述问题，本文提出了一种用于无人机跟踪的全新渐进式表示学习框架，即 PRL-Track。具体而言，PRL-Track 分为粗略表示学习和精细表示学习。对于粗略表示学习，设计了两个依赖于外观和语义信息的创新调节器，以减轻外观干扰并捕获语义信息。此外，对于精细表示学习，开发了一种新的层次化建模生成器，以交织粗略目标表示。大量实验表明，所提出的 PRL-Track 在三个权威的无人机跟踪基准测试中取得了优异的性能。现实世界测试表明，所提出的 PRL-Track 在配备边缘智能摄像头的典型无人机平台上实现了每秒 42.6 帧的卓越跟踪性能。代码、模型和演示视频可在 \url{https://github.com/vision4robotics/PRL-Track} 获得。

发布时间: 9/26/2024

查看原文

多任务学习中的几何对齐任务添加

作者: Soorin Yim, Dae-Woong Jeong, Sung Moon Ko, Sumin Lee, Hyunseung Kim, Chanhui Lee, Sehui Han

在数据有限的情况下训练深度学习模型并保持泛化能力是分子性质预测中的基本挑战之一。一种有效的解决方案是从丰富的数据集中转移提取的知识到数据稀缺的数据集中。最近，一种名为几何对齐转移编码器 (GATE) 的新算法被提出，该算法通过对齐特定任务的潜在空间的几何形状来使用软参数共享。然而，GATE 在扩展到多个任务时由于计算成本而面临局限性。在本研究中，我们提出了一种针对 GATE 的任务添加方法，以提高目标任务在数据有限情况下的性能，同时最大程度地降低计算复杂度。它是通过在大型数据集上进行监督的多任务预训练来实现的，随后为每个目标任务添加和训练特定任务的模块。我们的实验表明，与传统的多种任务方法相比，GATE 的任务添加策略具有优越的性能，同时计算成本相当。

发布时间: 9/26/2024

查看原文

通过自我博弈训练语言模型以提升辩论获胜能力，从而提高评判准确性

作者: Samuel Arnesen, David Rein, Julian Michael

我们通过训练模型与通过自我博弈生成的数据进行辩论，来测试辩论作为可扩展监督方法的鲁棒性。在长文本阅读理解任务中，我们发现当评估模型被优化以赢得辩论时，基于语言模型的评估者能够更准确地回答问题。相比之下，我们发现对于在没有对手辩论者的情况下被训练说服法官的咨询模型，不存在这种关系。在我们的辩论模型和新颖的咨询基线之间的定量和定性比较中，我们发现证据表明辩论训练鼓励更强大和更有信息的论点，这表明它有可能帮助为难以直接评估的任务提供高质量的监督。

发布时间: 9/26/2024

查看原文

平均池化下的随机子采样

作者: Bum Jun Kim, Sang Woo Kim

深度神经网络的正则化一直是解决过拟合问题并提高泛化性能的重要课题。尽管常用的 Dropout 方法能够提供正则化效果，但它会导致输出结果的不一致性，从而降低深度神经网络的性能。在本研究中，我们提出了一种名为随机平均池化的全新模块，该模块将类似 Dropout 的随机性融入池化操作中。我们描述了随机子采样和平均池化的特性，并利用它们设计了一个没有任何不一致问题的模块。随机平均池化能够实现正则化效果，而不会因不一致性问题而导致潜在的性能下降，并且可以轻松地插入到现有的深度神经网络架构中。实验表明，用随机平均池化替换现有的平均池化，在各种任务、数据集和模型中都能带来一致的性能提升。

发布时间: 9/26/2024

查看原文

昇腾 HiFloat8 格式用于深度学习

作者: Yuanyong Luo, Zhongxing Zhang, Richard Wu, Hu Liu, Ying Jin, Kai Zheng, Minmin Wang, Zhanying He, Guipeng Hu, Luyao Chen, Tianchi Hu, Junsong Wang, Minqi Chen, Mikhaylov Dmitry, Korviakov Vladimir, Bobrin Maxim, Yuhao Hu, Guanfu Chen, Zeyi Huang

本预白皮书针对深度学习提出了一种新颖的 8 位浮点数据格式 HiFloat8（简称 HiF8）。HiF8 具有梯度精度。对于正常值的编码，它提供 7 个指数位和 3 位尾数，8 个指数位和 2 位尾数，以及 16 个指数位和 1 位尾数。对于非规格化值或次规格化值编码，它将动态范围扩展了 7 个额外的 2 的幂，从 31 个二进制位扩展到 38 个二进制位（注意 FP16 覆盖了 40 个二进制位）。同时，HiF8 编码所有特殊值，但正零和负零仅由一个比特模式表示。由于在精度和动态范围之间取得了更好的平衡，HiF8 可以同时用于 AI 训练的前向和反向传递。在本文中，我们将描述 HiF8 的定义和舍入方法，以及初步的训练和推理解决方案。为了证明 HiF8 格式的有效性，还将展示在各种神经网络（包括传统神经网络和大型语言模型 (LLM)）上的大量模拟结果。

发布时间: 9/26/2024

查看原文

面向实际应用的基于声明引导的文本后门攻击

作者: Minkyoo Song, Hanna Kim, Jaehan Kim, Youngjin Jin, Seungwon Shin

自然语言处理领域的最新进展以及大型语言模型的广泛应用暴露了新的安全漏洞，例如后门攻击。以往的后门攻击需要在模型分发后进行输入操作以激活后门，这在现实应用中存在局限性。为了填补这一空白，我们引入了一种新颖的基于断言引导的后门攻击（CGBA），它利用固有的文本断言作为触发器，消除了对这种操作的需求。CGBA 利用断言提取、聚类和目标训练来欺骗模型，使其在目标断言上出现故障，而不会影响其在干净数据上的性能。CGBA 在各种数据集和模型上展示了其有效性和隐蔽性，极大地提高了实际后门攻击的可行性。我们的代码和数据将在 https://github.com/PaperCGBA/CGBA 上提供。

发布时间: 9/26/2024

查看原文

心电图图像数据库：包含真实世界成像和扫描伪影的心电图图像数据集；用于计算机化心电图图像数字化和分析的基础

作者: Matthew A. Reyna, Deepanshi, James Weigle, Zuzana Koscova, Kiersten Campbell, Kshama Kodthalu Shivashankara, Soheil Saghafi, Sepideh Nikookar, Mohsen Motie-Shirazi, Yashar Kiarashi, Salman Seyedi, Gari D. Clifford, Reza Sameni

我们介绍了 ECG-Image-Database，这是一个大型且多样化的心电图 (ECG) 图像集合，这些图像由心电图时间序列数据生成，并包含现实世界中的扫描、成像和物理伪影。我们使用 ECG-Image-Kit（一个开源 Python 工具包）从原始心电图时间序列生成 12 导联心电图打印输出的逼真图像。这些图像包括现实的失真，例如噪声、皱纹、污点和透视偏移，这些失真是在数字和物理上生成的。该工具包被应用于 PTB-XL 数据库中的 977 个 12 导联心电图记录和 Emory Healthcare 的 1,000 个记录，以创建高保真合成心电图图像。这些独特的图像经过了使用 ECG-Image-Kit 进行的程序失真和物理效应（如浸泡、染色和霉菌生长）的处理，然后在各种照明条件下进行扫描和摄影，以创建现实世界的伪影。所得数据集包含 35,595 个软件标记的心电图图像，具有广泛的成像伪影和失真。该数据集提供了与图像并行的真实时间序列数据，为开发心电图数字化和分类的机器学习和深度学习模型提供参考。这些图像的质量各不相同，从清晰的干净纸张扫描到退化纸张的嘈杂照片，从而能够开发出更通用的数字化算法。 ECG-Image-Database 解决了对数字化纸质和非数字心电图以进行计算机分析的迫切需求，为开发能够将心电图图像转换为时间序列的强大机器学习和深度学习模型奠定了基础。该数据集旨在作为心电图数字化和计算机注释工作的参考。ECG-Image-Database 被用于 2024 年 PhysioNet 挑战赛中的心电图图像数字化和分类。

发布时间: 9/26/2024

查看原文

学术出版物中大型语言模型的新颖性评估与增强

作者: Ethan Lin, Zhiyuan Peng, Yi Fang

近年来，许多研究从语义角度，利用认知科学的基准来评估大型语言模型（LLM）的创造力/新颖性。然而，在评估 LLM 时，学术出版物中的新颖性是一个尚未得到充分探索的领域。本文提出了一个学术新颖性基准（SchNovel），用于评估 LLM 评估学术论文新颖性的能力。SchNovel 包含 15000 对论文，这些论文来自六个领域，从 arXiv 数据集中抽取，出版日期相隔 2 到 10 年。在每一对中，假设最近发表的论文更具新颖性。此外，我们提出了 RAG-Novelty，它通过利用检索类似论文来评估新颖性，模拟了人类审稿人所采用的审查过程。大量的实验提供了对不同 LLM 评估新颖性能力的见解，并证明了 RAG-Novelty 优于最近的基线模型。

发布时间: 9/26/2024

查看原文

用于分割学习的混合量子神经网络

作者: Hevish Cowlessur, Chandra Thapa, Tansu Alpcan, Seyit Camtepe

量子机器学习 (QML) 是一个新兴的研究领域，在分布式协作学习（如分割学习 (SL)）中具有潜在的应用。SL 允许资源受限的客户端与服务器协作训练机器学习模型，减少其计算开销，并通过避免原始数据共享来实现数据隐私。尽管已经研究了 QML 与 SL 的结合，但该问题在客户端缺乏量子计算能力的资源受限环境中仍然存在。此外，SL 中客户端和服务器之间的数据隐私泄露存在服务器端重建攻击的风险。为了解决这些问题，我们提出了混合量子分割学习 (HQSL)，它是 SL 中混合 QML 的应用。HQSL 使得经典客户端能够使用混合量子服务器训练模型，并抑制重建攻击。此外，我们引入了一种新的量子位高效数据加载技术，用于在 HQSL 中设计量子层，最大限度地减少量子位数量和电路深度。对五个数据集的实验表明 HQSL 的可行性以及与经典模型相比，HQSL 能够提高分类性能。值得注意的是，HQSL 在 Fashion-MNIST 数据集上实现了准确率和 F1 分数平均提高 3% 以上，在语音命令数据集上实现了这两个指标平均提高 1.5% 以上。我们将这些研究扩展到包括多达 100 个客户端，证实了 HQSL 的可扩展性。此外，我们引入了一种基于噪声的防御机制来解决服务器端的重建攻击问题。总体而言，HQSL 使得经典客户端能够与混合量子服务器协作训练其模型，利用量子优势，同时提高模型性能并抵御与数据隐私泄露相关的重建攻击。

发布时间: 9/26/2024

查看原文