arXiv 论文列表

作者: Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil, Khaled N. Salama

设计能够高效支持各种工作负载的通用型内存计算 (IMC) 硬件需要进行大量的设计空间探索，而手动执行此操作是不可行的。针对每个工作负载或仅针对最大工作负载单独优化硬件往往无法产生最有效的通用解决方案。为了解决这个问题，我们提出了一种联合硬件-工作负载优化框架，该框架可以识别优化的 IMC 芯片架构参数，从而实现更高效、更灵活的工作负载硬件。结果表明，与针对单个最大工作负载进行优化的单独架构参数搜索相比，联合优化在 VGG16、ResNet18、AlexNet 和 MobileNetV3 上分别实现了 36%、36%、20% 和 69% 的能耗-延迟-面积分数提升。此外，我们还量化了所得通用 IMC 硬件与特定工作负载 IMC 设计相比的性能权衡和损失。

发布时间: 10/23/2024

查看原文

SpikMamba：基于事件的类脑动作识别中脉冲神经网络与Mamba模型的融合

作者: Jiaqi Chen, Yan Yang, Shizhuo Deng, Da Teng, Liyuan Pan

人体行为识别 (HAR) 在视频分析、监控、自动驾驶、机器人技术和医疗保健等各种应用中发挥着关键作用。大多数 HAR 算法都是基于 RGB 图像开发的，这些图像能够捕捉详细的视觉信息。然而，由于记录了可识别特征，这些算法在隐私敏感环境中引发了担忧。事件相机通过在像素级别稀疏地捕捉场景亮度变化，而无需捕捉完整的图像，提供了一种有前景的解决方案。此外，事件相机具有高动态范围，可以有效地处理具有复杂光照条件的场景，例如低光照或高对比度环境。然而，使用事件相机给 HAR 的空间稀疏和高时间分辨率事件数据的建模带来了挑战。为了解决这些问题，我们提出了 SpikMamba 框架，它结合了脉冲神经网络的能源效率和 Mamba 的长序列建模能力，能够有效地从空间稀疏和高时间分辨率的事件数据中捕捉全局特征。此外，为了提高建模的局部性，使用了基于脉冲窗口的线性注意力机制。大量的实验表明，SpikMamba 取得了显著的识别性能，在 PAF、HARDVS、DVS128 和 E-FAction 数据集上分别比之前的最先进技术提高了 1.45%、7.22%、0.15% 和 3.92%。代码可在 https://github.com/Typistchen/SpikMamba 获取。

发布时间: 10/23/2024

查看原文

修正后的软演员评论家算法用于连续控制

作者: Yanjun Chen, Xinming Zhang, Xianghui Wang, Zhiqiang Xu, Xiaoyu Shen, Wei Zhang

软演员评论家 (SAC) 算法以其在深度强化学习中的稳定性和高样本效率而闻名。然而，SAC 中应用于采样动作的 tanh 变换会扭曲动作分布，从而阻碍最可能动作的选择。本文提出了一种新的动作采样方法，该方法可以直接识别和选择变换分布中最可能的动作，从而解决了这个问题。在标准连续控制基准上的大量实验表明，该方法显著提高了 SAC 的性能，与原始算法相比，实现了更快的收敛速度和更高的累积奖励。

发布时间: 10/23/2024

查看原文

通过多功能TTS增强低资源语音识别：弥合数据差距

作者: Guanrou Yang, Fan Yu, Ziyang Ma, Zhihao Du, Zhifu Gao, Shiliang Zhang, Xie Chen

虽然自动语音识别 (ASR) 系统在大规模数据集上取得了显著的性能，但在低资源环境下（包括方言、口音、少数民族语言和长尾热词等具有重要实际意义的领域）其效能仍然不足。随着能够生成具有逼真度、表现力和多样化说话人特征的、堪比人类水平语音的通用强大文本转语音 (TTS) 模型的出现，利用 TTS 进行 ASR 数据增强提供了一种经济有效且实用的方法来提高 ASR 性能。在种类空前丰富的低资源数据集上进行的综合实验表明，性能得到了持续而显著的提升，证明了所提出的通过通用 TTS 模型增强低资源 ASR 的方法非常有效，并具有广泛的应用前景。此外，我们深入研究了合成语音数据中促使 ASR 性能提升的关键特征，考察了文本多样性、说话人多样性和合成数据量等因素，其中文本多样性在本研究中首次被研究。我们希望我们的研究结果能够为基于 TTS 的数据增强的实际应用提供有益的指导和参考，并将低资源 ASR 的发展向前推进一步。

发布时间: 10/23/2024

查看原文

崩塌还是繁荣？自生成世界中合成数据的风险与机遇

作者: Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo

互联网上人工智能生成内容的增多引发了一个关键问题：当生成式机器学习模型使用包含早期模型创建的数据的网络规模数据集进行预训练时会发生什么？一些作者预言在“替换”场景下会出现模型崩溃：一系列模型，第一个模型用真实数据训练，后续每个模型仅使用其前一个模型生成的合成数据进行训练。在这种情况下，模型会逐渐退化。另一些人认为崩溃很容易避免；在“累积”场景中，训练一系列模型，但每次训练都使用迄今为止生成的所有真实和合成数据。在这项工作中，我们加深并扩展了对这些对比场景的研究。首先，通过比较三种突出的生成式建模设置中的替换和累积场景来研究崩溃与避免崩溃；我们发现这三种设置中都出现了相同的对比结果。其次，我们研究了一种折衷方案；可用数据与累积场景相同——但与累积场景不同，与替换场景类似，每个模型都使用固定的计算预算进行训练；我们证明，模型在真实数据上的测试损失大于累积场景，但显然会趋于平稳，这与替换场景中看到的差异不同。第三，我们研究了真实数据基数和比例对于避免模型崩溃的相对重要性。令人惊讶的是，我们发现真实数据和合成数据之间存在非平凡的相互作用，其中合成数据在减少测试损失方面的价值取决于真实数据的绝对数量。我们的见解对于预测未来的前沿生成模型是会崩溃还是会蓬勃发展尤为重要，我们的结果为经验性和数学地研究合成数据的上下文相关价值开辟了途径。

发布时间: 10/23/2024

查看原文

基于迁移学习的医学图像分类卷积神经网络架构开发

作者: Ganga Prasad Basyal, David Zeng, Bhaskar Pm Rimal

近年来，基于深度学习的架构应用得到了飞速发展。例如，使用深度学习的医学图像分类取得了突破性成果。卷积神经网络 (CNN) 主要应用于医学图像分类和分割。另一方面，迁移学习已成为增强深度学习模型效率和准确性的重要辅助工具。本文研究了使用迁移学习技术开发 CNN 架构在医学图像分类领域中的应用，并使用时间线映射模型对关键图像分类挑战进行了梳理。我们的研究结果有助于在选择最佳和最先进的 CNN 架构时做出明智的决策。

发布时间: 10/23/2024

查看原文

具有单一激活函数的ODENet和ResNet的万能逼近性质

作者: Masato Kimura, Kazunori Matsui, Yosuke Mizuno

我们研究了ODENet和ResNet的泛函逼近性质。ODENet将微分方程系统在有限区间内的初值映射到最终值，被认为是ResNet型深度学习系统的数学模型。我们考虑由激活函数和仿射映射的单次复合给出的向量场的动力系统，这是实际机器学习系统中ODENet或ResNet向量场最常见的选择。我们证明了具有受限向量场的ODENet和ResNet可以一致逼近具有任意向量场的ODENet。

发布时间: 10/23/2024

查看原文

基于幂律解码器表示的大型语言模型

作者: Burc Gokden

我们提出了一种基于幂律解码器表示的大型语言模型（PLDR-LLM），该模型利用幂律图注意力机制进行非线性与线性变换，从而生成明确的演绎和归纳输出。我们使用32的小批量大小和来自RefinedWeb数据集的约80亿个token对不同层大小的PLDR-LLM进行了预训练，结果表明，在零样本和少样本设置下，它们与文献中报道的具有相似模型规模的缩放点积LLM相比，取得了具有竞争力的性能。我们证明了PLDR-LLM的演绎输出可用于比较模型特性，或通过引入有向无环图（DAG）损失作为度量和正则化器来提高性能。我们的结果表明，初始最大学习率和预热步数对预训练过程中的演绎输出具有持久的影响。我们详细描述了PLDR-LLM的架构、实现和预训练过程。

发布时间: 10/23/2024

查看原文

图Transformer梦寐以求的电力流

作者: Xiang Cheng, Lawrence Carin, Suvrit Sra

我们从理论和实证上证明，线性Transformer应用于图数据时，可以实现求解诸如电流流和特征向量分解等典型问题的算法。Transformer的输入仅仅是图的关联矩阵；没有提供其他显式的 positional encoding 信息。我们提出了实现每种图算法的显式权重配置，并通过底层算法的误差来限制所构建Transformer的误差。我们在合成数据上的实验验证了我们的理论发现。此外，在一个真实的分子回归任务中，我们观察到线性Transformer能够学习比基于拉普拉斯特征向量的默认 positional encoding 更有效的 positional encoding。我们的工作是阐明Transformer处理图数据内部机制的初步尝试。

发布时间: 10/23/2024

查看原文

MPT：一个大规模多浮游植物追踪基准

作者: Yang Yu, Yuezun Li, Xin Sun, Junyu Dong

浮游植物是水生生态系统的重要组成部分，对其进行有效监测可以为海洋环境和生态系统变化提供宝贵的见解。传统的浮游植物监测方法往往复杂且缺乏及时性分析。因此，深度学习算法为浮游植物自动监测提供了一种有前景的方法。然而，缺乏大规模、高质量的训练样本已成为推进浮游植物追踪的主要瓶颈。本文提出一个具有挑战性的基准数据集——多浮游植物追踪数据集 (MPT)，该数据集涵盖了不同的背景信息和观察过程中运动的变化。该数据集包括27种浮游植物和浮游动物，14种不同的背景以模拟多样化和复杂的水下环境，以及总共140个视频。为了实现对浮游植物的准确实时观测，我们引入了一种多目标跟踪方法——偏差校正多尺度特征融合跟踪器 (DSFT)，该方法解决了跟踪过程中焦点偏移以及计算帧间相似性时小型目标信息丢失等问题。具体来说，我们引入了一个额外的特征提取器来预测标准特征提取器输出的残差，并基于提取器不同层的特征计算多尺度帧间相似性。在MPT上的大量实验已经证明了该数据集的有效性和DSFT在浮游植物跟踪方面的优越性，为浮游植物监测提供了一种有效的解决方案。

发布时间: 10/23/2024

查看原文