arXiv 论文列表

作者: Jen-Yuan Huang, Haofan Wang, Qixun Wang, Xu Bai, Hao Ai, Peng Xing, Jen-Tse Huang

处理测试时未知退化是盲图像恢复 (BIR) 中的主要挑战，需要高度的模型泛化能力。一种有效的策略是结合先验知识，无论是来自人工输入还是生成模型。在本文中，我们介绍了即时参考图像恢复 (InstantIR)，一种新颖的基于扩散的 BIR 方法，它在推理过程中动态调整生成条件。我们首先通过预训练的视觉编码器提取输入的紧凑表示。在每个生成步骤中，此表示用于解码当前扩散潜在变量并在生成先验中实例化它。然后使用此参考对退化图像进行编码，从而提供稳健的生成条件。我们观察到生成参考的方差随着退化强度的变化而波动，我们进一步利用它作为开发适应输入质量的采样算法的指标。大量的实验表明 InstantIR 实现了最先进的性能并提供了出色的视觉质量。通过使用文本描述来调节生成参考，InstantIR 可以恢复极端退化，并另外具有创造性的恢复功能。

发布时间: 10/10/2024

查看原文

大型语言模型生成训练数据用于对话语义框架分析的成本效益研究

作者: Shiho Matta, Yin Jou Huang, Fei Cheng, Hirokazu Kiyomaru, Yugo Murawaki

近年来，研究表明少样本学习能够让大型语言模型（LLM）以低成本生成用于监督模型的训练数据。然而，LLM 生成的数据的质量可能无法完全与人工标注的数据相媲美。这引发了一个关键问题：如何平衡高质量但成本更高的人工数据与质量较低但成本低得多的 LLM 生成的数据之间的权衡？本文利用 GPT-4 合成用于对话语义框架分析的训练数据，并研究了如何最佳地分配预算以获得最佳性能。我们针对各种预算水平进行了实验，结果表明，在广泛的预算水平下，通过结合人工数据和 LLM 生成的数据，能够实现最佳的成本效益。值得注意的是，随着预算的减少，使用更高比例的 LLM 生成的数据变得更加可取。

发布时间: 10/10/2024

查看原文

DiffGAD：一种基于扩散的无监督图异常检测器

作者: Jinghan Li, Yuan Gao, Jinda Lu, Junfeng Fang, Congcong Wen, Hui Lin, Xiang Wang

图异常检测 (GAD) 是识别网络中异常实体的关键，在各个领域都引起了广泛关注。传统的无监督方法，通过对未标记数据的编码潜在表示进行解码，并以重建为重点，往往无法捕获关键的判别性内容，导致异常检测效果不佳。为了解决这些挑战，我们提出了基于扩散的图异常检测器 (DiffGAD)。DiffGAD的核心是一个新颖的潜在空间学习范式，精心设计以通过判别性内容引导，增强其能力。这种创新方法利用扩散采样将判别性内容注入潜在空间，并引入了一种内容保留机制，在不同尺度上保留有价值的信息，显着提高了其在有限时间和空间复杂度下识别异常的能力。我们在六个真实世界和大型数据集上进行了全面评估，使用各种指标，证明了 DiffGAD 的卓越性能。

发布时间: 10/10/2024

查看原文

芯片调优：在语言模型发声之前分类

作者: Fangwei Zhu, Dian Li, Jiajun Huang, Gang Liu, Hui Wang, Zhifang Sui

大型语言模型（LLMs）的性能快速发展伴随着模型规模的不断扩大，导致模型训练和推理成本越来越高。之前的研究发现，LLMs 中的某些层存在冗余，移除这些层只会导致模型性能略微下降。本文采用探测技术来解释 LLMs 中的层冗余，并证明语言模型可以通过探测分类器进行有效地剪枝。我们提出了芯片调优，这是一种简单有效的结构化剪枝框架，专门用于分类问题。芯片调优将名为芯片的小型探测分类器附加到 LLMs 的不同层，并在冻结主干模型的情况下训练芯片。在选择用于分类的芯片后，可以移除附加层之后的所有层，而性能损失微乎其微。在各种 LLMs 和数据集上的实验结果表明，芯片调优在准确率和剪枝率方面都显著优于以前的最新基线，剪枝率高达 50%。我们还发现，芯片调优可以应用于多模态模型，并且可以与模型微调相结合，证明了其出色的兼容性。

发布时间: 10/10/2024

查看原文

拓扑调优：一种通用组合复杂神经网络框架

作者: Mathilde Papillon, Guillermo Bern\'ardez, Claudio Battiloro, Nina Miolane

图神经网络 (GNNs) 在从关系数据集学习方面表现出色，以保留图域对称性的方式处理节点和边特征。然而，许多复杂系统（例如生物或社交网络）涉及多方面的复杂交互，这些交互更自然地由高阶拓扑空间表示。新兴的拓扑深度学习 (TDL) 领域旨在适应和利用这些高阶结构。组合复形神经网络 (CCNNs) 是一种相当通用的 TDL 模型，已被证明比 GNNs 更具表达性和更好的性能。然而，与图深度学习生态系统不同，TDL 缺乏一个原则性和标准化的框架来轻松定义新的架构，限制了其可访问性和适用性。为了解决这个问题，我们引入了广义 CCNNs (GCCNs)，这是一种新颖的简单而强大的 TDL 模型家族，可用于系统地将任何（图）神经网络转换为其 TDL 对应物。我们证明了 GCCNs 概括并包含 CCNNs，而对各种 GCCNs 的广泛实验表明，这些架构始终匹配或优于 CCNNs，通常模型复杂度更低。为了加速和普及 TDL，我们引入了 TopoTune，这是一种轻量级软件，允许从业人员以前所未有的灵活性和简便性定义、构建和训练 GCCNs。

发布时间: 10/10/2024

查看原文

基于采样高斯的立体匹配

作者: Baiyu Pan, jichao jiao, Bowen Yao, Jianxin Pang, Jun Cheng

在基于神经网络的立体匹配方法中，软argmax操作被广泛用于实现视差的可微回归。然而，由于缺乏对概率分布形状的显式约束，使用软argmax训练的网络容易出现多峰性。以前的方法利用拉普拉斯分布和交叉熵进行训练，但未能有效地提高精度，甚至影响了网络的效率。在本文中，我们对以前基于分布的方法进行了详细的分析，并提出了一种用于立体匹配的新型监督方法，即采样高斯分布。我们从高斯分布中采样进行监督。此外，我们将训练解释为最小化向量空间中的距离，并提出了一种结合L1损失和余弦相似度损失的组合损失。此外，我们利用双线性插值对代价体进行上采样。我们的方法可以直接应用于任何基于软argmax的立体匹配方法，而不会降低效率。我们已经进行了全面的实验，以证明我们的采样高斯分布的优越性能。实验结果证明，我们在五个基线方法和两个数据集上取得了更好的精度。我们的方法易于实现，代码已在线提供。

发布时间: 10/10/2024

查看原文

天才是否拥有相同的思维？探究问答中人机互补的CAIMIRA模型

作者: Maharshi Gor, Hal Daum\'e III, Tianyi Zhou, Jordan Boyd-Graber

大型语言模型（LLMs）的最新进展已经导致了人工智能在自然语言处理（NLP）任务（如文本理解和推理）方面超越人类的论断。本研究通过引入 CAIMIRA，一个基于项目反应理论（IRT）的新框架，来调查这些断言，该框架能够对问答（QA）代理（人类和人工智能系统）的解决问题能力进行定量评估和比较。通过分析来自约 70 个人工智能系统和 155 个人的超过 300,000 个对数千个测验问题的回答，CAIMIRA 揭示了知识领域和推理能力中不同的熟练程度模式。人类在知识基础的溯因推理和概念推理方面优于人工智能系统，而 GPT-4 和 LLaMA 等最先进的 LLM 在目标信息检索和基于事实的推理方面表现出优越的性能，尤其是在信息差距明确且可以通过模式匹配或数据检索解决的情况下。这些发现强调了未来 QA 任务需要关注挑战更高阶推理和科学思维的问题，同时还需要对语言进行细致的解释和跨上下文知识应用，从而推动人工智能的发展，使其在现实世界中的问题解决方面更好地模拟或补充人类认知能力。

发布时间: 10/10/2024

查看原文

超导序参数与密度非线性相互作用的相图：迈向数据驱动的全息超导体

作者: Sejin Kim, Kyung Kiu Kim, Yunseok Seo

我们研究了全息超导体模型中的一个逆问题。我们专注于实验中所描绘的临界温度行为。我们使用了一个物理信息神经网络方法来寻找质量函数 $M(F^2)$，这对于理解相变行为至关重要。该质量函数描述了超导序和载流子密度之间的非线性相互作用。我们在算法中引入了位置嵌入层来改进学习过程，并使用 Adam 优化方法通过全息计算以适当的精度预测临界温度数据。引入位置嵌入层的考虑源于人工智能领域中自然语言处理的 Transformer 模型。我们获得了能够重现实际数据提供的正常相和超导相边界的全息模型。我们的工作是首次尝试定量匹配实验获得的相变数据。此外，本工作为基于数据的全息模型提供了一种新的方法。

发布时间: 10/10/2024

查看原文

QuadBEV：一种基于鸟瞰图表示的高效四任务感知框架

作者: Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo

鸟瞰视角 (BEV) 感知已成为自动驾驶系统的重要组成部分，因为它能够将来自多个传感器的输入整合到一个统一的表示中，从而提升各种下游任务的性能。然而，BEV 模型的计算需求给资源有限的车辆的实际部署带来了挑战。为了解决这些限制，我们提出了 QuadBEV，这是一个高效的多任务感知框架，它利用了四个关键任务之间共享的空间和上下文信息：3D 物体检测、车道检测、地图分割和占用率预测。QuadBEV 不仅通过共享主干和特定任务的头来简化这些任务的集成，而且还解决了学习率敏感性和任务目标冲突等常见的多任务学习挑战。我们的框架减少了冗余计算，从而提高了系统效率，使其特别适合嵌入式系统。我们提供了全面的实验来验证 QuadBEV 的有效性和鲁棒性，证明了它适合实际应用。

发布时间: 10/10/2024

查看原文

TorchTitan：面向生产环境的 LLM 预训练一体化 PyTorch 原生解决方案

作者: Wanchao Liang, Tianyu Liu, Less Wright, Will Constable, Andrew Gu, Chien-Chin Huang, Iris Zhang, Wei Feng, Howard Huang, Junjie Wang, Sanket Purandare, Gokul Nadathur, Stratos Idreos

大型语言模型 (LLM) 的发展推动了自然语言处理应用的最新进展。训练具有数十亿参数和数万亿个标记的 LLM 需要复杂的分布式系统，这些系统能够组合和比较几种最先进的技术，以便在数千个加速器上有效地扩展。然而，现有的解决方案复杂，分散在多个库/存储库中，缺乏互操作性，并且维护起来很麻烦。因此，整理和经验性地比较训练配方需要非凡的工程努力。本文介绍了 TorchTitan，这是一个开源的、基于 PyTorch 的分布式训练系统，它统一了最先进的技术，简化了集成并减少了开销。TorchTitan 以模块化方式实现 3D 并行，具有弹性扩展性，提供全面的日志记录、检查点和调试工具，用于生产就绪的训练。它还结合了硬件-软件协同设计的解决方案，利用 Float8 训练和 SymmetricMemory 等功能。作为灵活的测试平台，TorchTitan 便于定制配方整理和比较，使我们能够为 Llama 3.1 开发优化的训练配方，并根据我们的经验提供有关选择技术以实现最大效率的指导。我们在 Llama 3.1 家族的 LLM 上对 TorchTitan 进行了全面评估，涵盖了 80 亿到 4050 亿个参数，并展示了其卓越的性能、模块化可组合性和弹性可扩展性。通过叠加训练优化，我们证明了在 128 个 GPU 规模（Llama 3.1 8B）上使用 1D 并行加速了 65.08%，在 256 个 GPU 规模（Llama 3.1 70B）上使用 2D 并行加速了 12.59%，在 512 个 GPU 规模（Llama 3.1 405B）上使用 3D 并行加速了 30%，这些都是在 NVIDIA H100 GPU 上相对于优化的基线而言的。

发布时间: 10/10/2024

查看原文