LLM2D

arXiv 论文列表

作者: Wenhao Wang, Adam Dziedzic, Grace C. Kim, Michael Backes, Franziska Boenisch
arXiv:2502.07830v1 类型: cross 摘要:多模态模型,如CLIP,在对齐视觉和文本表示方面表现出了强大的能力,尤其在图像检索和零-shot分类等任务中表现出色。尽管取得了这一成功,但这些模型如何利用训练数据,特别是记忆的作用,仍然不清楚。在单模态模型中,无论是监督学习还是自监督学习,记忆都被证明是泛化的关键。然而,这些发现如何适用于同时结合了监督学习和自监督学习的CLIP模型,这一问题却不甚清楚,这种结合还包括通过提供类似于标签的监督信号的 caption 来进行监督学习,以及通过对比目标进行自监督学习。为了解决这一理解上的缺口,我们提出了一个CLIP(CLIPMem)的记忆形式定义,并使用它来量化CLIP模型中的记忆。结果显示,CLIP的记忆行为介于监督学习和自监督学习之间,“错误标注”的样本具有最高水平的记忆。此外,我们发现文本编码器比图像编码器对记忆的贡献更大,这表明减缓策略应集中在文本领域。基于这些见解,我们提出了多种策略来减少记忆的同时提高效用——这对于传统的学习范式来说是一个新颖的观点,因为在传统范式中,减少记忆通常会导致效用的降低。
发布时间: 2/13/2025
查看原文
arXiv:2502.07828v1 类型: 交叉学科 摘要:当前以及可预见的生成性人工智能模型无法实现人工通用智能,因为它们被人类债务所拖累。它们高度依赖于人类输入来提供结构化的问题、架构和训练数据。它们将每一个问题都视为一种语言模式学习问题,因此无法实现达到人工通用智能所需的那种自主性。当前的模型之所以能在其任务上取得成功,是因为人们已经解决了模型所针对的大部分问题,仅剩下一些简单的计算任务(例如梯度下降)留给模型执行。另一个障碍是认识到存在多种类型的问题,其中一些问题无法通过可用的计算方法解决(例如,“洞察力问题”)。当前对模型进行评估的方法(基准测试和测试)不足以识别解题方法的普遍性,因为从问题解决的事实中无法推断出解决问题的具体方法。例如,一个测试可以通过特定测试的方法或一般性的方法来通过。从成功的观察中推断出解题方法是一种逻辑谬误(肯定后果)。
发布时间: 2/13/2025
查看原文
作者: Mark Sch\"one, Babak Rahmani, Heiner Kremer, Fabian Falck, Hitesh Ballani, Jannes Gladrow
arXiv:2502.07827v1 Announce Type: cross 摘要:状态空间模型(SSMs)和变压器在语言建模领域占据主导地位。然而,它们在计算复杂度上受到限制,低于经典的循环神经网络(RNNs),限制了它们的表达能力。相比之下,RNNs 在训练过程中缺乏并行化,引发了关于并行化与表达能力之间的权衡关系的基本问题。我们提出了一种隐式状态空间模型(implicit SSMs),通过迭代变换直到收敛到固定点。理论上,我们证明了隐式状态空间模型实现了RNNs的非线性状态转移。从经验上来看,我们发现仅需近似收敛到固定点就足够了,这使得我们可以设计一个可扩展的训练课程,大量保留并行化,只有小部分标记需要完全收敛。我们的方法在标准语言上展示了优越的态跟踪能力,超越了变压器和状态空间模型。进一步地,我们将隐式状态空间模型扩展到自然语言推理任务和大型语言模型的预训练,参数量达到13亿,标记量达到2070亿,据我们所知,这是迄今为止训练的最大隐式模型。值得注意的是,我们的隐式模型在标准基准测试上超过了其显式对应模型。
发布时间: 2/13/2025
查看原文
作者: Haoran He, Yang Zhang, Liang Lin, Zhongwen Xu, Ling Pan
arXiv:2502.07825v1 Announce Type: cross 抽象:在大规模互联网数据集上预训练的视频生成模型已经取得了显著的成功,特别是在生成逼真的合成视频方面。然而,它们往往基于静态提示(例如,文本或图片)生成片段,限制了其对交互和动态场景的建模能力。在本文中,我们提出了一种名为动态世界模拟(DWS)的新方法,将预训练的视频生成模型转化为可控的世界模拟器,能够在指定的动作轨迹下运行。为了在条件动作和生成的视觉变化之间实现精确对齐,我们引入了一个轻量级、通用的动作条件模块,可以无缝集成到任何现有模型中。我们没有专注于复杂的视觉细节,而是证明了一致的动力转型建模是构建强大世界模拟器的关键。基于这一洞见,我们进一步引入了运动增强损失,通过迫使模型更有效地捕捉动态变化来提高动作可控性。实验表明,DWS 可以灵活应用于扩散和自回归变换器模型,实现了在游戏和机器人领域生成动作可控、动态一致视频的显著改进。此外,为了促进在下游任务(如基于模型的强化学习)中应用所学习的世界模拟器,我们提出了一种优先级想象方法,以提高采样效率,并证明了与现有最佳方法相比的竞争力。
发布时间: 2/13/2025
查看原文
作者: Tousif Rahman, Gang Mao, Bob Pattison, Sidharth Maheshwari, Marcos Sartori, Adrian Wheeldon, Rishad Shafik, Alex Yakovlev
arXiv:2502.07823v1 宣布类型: cross 摘要:嵌入式现场可编程门阵列(eFPGAs)允许以比传统FPGA平台更低的功耗预算设计边缘机器学习(ML)应用的硬件加速器。然而,有限的eFPGA逻辑和内存显著限制了计算能力和模型大小。因此,在eFPGAs上部署ML应用程序与最近发展的针对特定架构的实现方法和最大限度地提高吞吐量而不是资源节约形成了直接对比。本文关注这一权衡的另一面:所提出的eFPGA加速器专注于最小化资源使用,并允许在吞吐量之上进行现场重新校准的灵活性。这使得在运行时可以更改模型大小、架构和输入数据维度,而无需离线重新合成。这通过使用Tsetlin Machine (TM)算法的位级压缩推理架构得以实现。TM计算不需要任何乘法操作,仅限于位级AND、OR、NOT、求和和加法。此外,TM模型压缩使得整个模型能够适应eFPGA的片上块RAM。本文利用该加速器提出了在野外观测中调整模型策略的方法。所提出的方案在LUT和寄存器使用上分别比当前最节约资源的设计少了2.5倍和3.38倍,并且在与低功耗微控制器运行相同ML应用时,实现了高达129倍的能耗降低。
发布时间: 2/13/2025
查看原文
作者: Ao Liang, Haiyang Hua, Jian Fang, Wenyu Chen, Huaici Zhao
arXiv:2502.07822v1 交叉类型: cross 摘要: 当前的基于点的目标检测器只能从提供的点中学习,它们的有效感受野有限,对于此类目标缺乏足够的全局学习能力。在本文中,我们提出了一种新的单阶段3D检测的点膨胀机制(PDM-SSD),利用了这两种表示。具体而言,首先使用一种类似PointNet的3D主干网络进行高效的特征编码。然后使用带有点膨胀机制(PDM)的颈部来扩展特征空间,这包括两个关键步骤:点膨胀和特征填充。前者将在欧几里得空间中以采样点为中心的特定大小网格中扩展点。后者则通过球谐系数和高斯密度函数在方向和尺度方面填充未被占据的网格,以便反向传播。接下来,我们关联多个膨胀中心并通过高度压缩获得稀疏网格特征。最后,我们设计了一种混合检测头进行联合学习,一方面预测场景热图来补充投票点集,以提高检测准确性,另一方面通过特征融合校准检测框的目标概率。在具有挑战性的Karlsruhe Institute of Technology和Toyota Technological Institute (KITTI) 数据集上,PDM-SSD 在单模态方法中实现了最先进的多类检测结果,同时推理速度为68帧。我们还通过大量对象级别的实例展示了PDM-SSD在检测稀疏和不完整对象方面的优点。此外,PDM 可以作为辅助网络建立采样点与对象中心之间的联系,从而提高模型的准确性而不牺牲推理速度。我们的代码将在 https://github.com/AlanLiangC/PDM-SSD.git 提供。
发布时间: 2/13/2025
查看原文
arXiv:2502.07821v1 通告类型: 横跨领域 摘要:众所周知,基于查询的攻击在对抗性黑盒攻击中通常具有较高的成功率。尽管黑盒攻击的研究正在积极进行,但相对较少的研究集中在仅针对有限数量像素的像素攻击上。在图像分类中,基于查询的像素攻击往往依赖于块,这严重依赖于随机性并忽视了散布像素更适合对抗性攻击的事实。此外,就我们所知,基于查询的像素攻击在目标检测领域尚未得到研究。为了解决这些问题,我们提出了一种名为使用强化学习的记住与忘记像素攻击(RFPAR)的新型基于像素的黑盒攻击,由两个主要组件组成:记住和忘记过程。RFPAR通过利用通过单步RL算法生成的奖励来扰动像素,从而减轻随机性和避免块依赖性。RFPAR有效地创造了最小化置信分数的同时遵守有限像素约束的扰动图像。此外,我们将提出的方法从图像分类推进到目标检测,RFPAR通过减少检测到的对象的置信分数来避免检测。在使用ImageNet-1K数据集进行分类实验中,RFPAR优于最先进的基于查询的像素攻击。对于目标检测,使用MSCOCO数据集和YOLOv8以及DDQ,RFPAR展示了与最先进的基于查询的攻击相似的mAP减少,但所需的查询次数更少。进一步使用Argoverse数据集和YOLOv8进行的实验证实了RFPAR在更大规模的数据集上有效移除了对象。我们的代码可在https://github.com/KAU-QuantumAILab/RFPAR获取。
发布时间: 2/13/2025
查看原文
作者: Kang Eun Jeon, Johnny Rhe, Jong Hwan Ko
arXiv:2502.07820v1 Announce Type: cross 摘要: 在内存计算(IMC)架构的背景下,我们解决了低秩模型压缩的挑战。传统的剪枝方法虽然可以在模型尺寸上取得有效的缩减,但需要额外的辅助电路来管理复杂的数据流并减轻错位问题,这导致了增加的面积和能量 overhead。为了克服这些缺点,我们提出了利用低秩压缩技术,与剪枝不同,低秩压缩技术可以简化数据流并无缝地与 IMC 架构集成。然而,低秩压缩技术也带来了自身的挑战,即 i) IMC 数组利用率不佳,以及 ii) 准确性降低。为了解决这些问题,我们提出了一个新的方法,i) 使用移位和复制核(SDK) 映射技术,通过利用空闲的 IMC 列进行并行处理,ii) 使用分组低秩卷积,以缓解分解矩阵中的信息不平衡。我们的实验结果表明,我们的方法在现有剪枝技术的基础上实现了高达 2.5 倍的加速或 20.9% 准确性的提升。
发布时间: 2/13/2025
查看原文
arXiv:2502.07815v1 类型: cross 摘要: 检测敏感数据,如个人可识别信息(PII)和受保护的健康信息(PHI),对于数据安全平台至关重要。本研究评估了正则表达式基础的模式匹配算法和精确匹配搜索技术,以优化检测速度、准确性和可扩展性。我们的基准测试结果表明,在正则表达式引擎中,Google RE2在速度(10-15毫秒/MB)、内存效率(8-16MB)和准确率(99.5%)方面提供了最佳平衡,优于PCRE,并且硬件兼容性更广泛,高于Hyperscan。对于精确匹配,Aho-Corasick在大规模数据集上的性能(8毫秒/MB)和可扩展性方面表现出色。性能分析表明,正则表达式处理时间随数据集大小和模式复杂性的线性增加。AI + 正则表达式的混合方法通过提高召回率并最小化假阳性,实现了最高的F1分数(91.6%)。设备基准测试证实,我们的解决方案在高性能和中端系统上都能保持高效的CPU和内存使用。尽管该方法非常有效,但仍存在一些挑战,如有限的多语言支持和需要定期更新模式。未来的工作应该集中于扩展语言覆盖范围,将数据安全和隐私管理(DSPM)与数据泄露预防(DLP)工具集成,并增强监管合规性以促进更广泛的全球采用。
发布时间: 2/13/2025
查看原文
作者: Siwei Tu, Ben Fei, Weidong Yang, Fenghua Ling, Hao Chen, Zili Liu, Kun Chen, Hang Fan, Wanli Ouyang, Lei Bai
arXiv:2502.07814v1 交叉公告类型 摘要:准确获取任意位置的表层气象条件对于天气预报和气候模拟具有重要意义。由于来自卫星观测的气象状态通常以低分辨率网格场的形式提供,直接将空间插值应用于特定位置的气象状态往往会与实际观测结果出现显著差异。现有的用于获取高分辨率气象状态信息的方法通常忽略了与卫星观测的关联。为弥补这一差距,我们提出了一种Satellite-observations Guided Diffusion Model(SGD)模型,该模型基于ERA5再分析数据进行预训练,并使用卫星观测(GridSat)作为条件。该模型通过零样本引导采样策略和基于局部的方法进行采样,用于采样降尺度后的气象状态。在训练过程中,我们提出使用注意力机制将GridSat卫星观测的信息融合到ERA5地图中,从而使SGD能够更准确地生成与实际条件相一致的大气状态。在采样过程中,我们采用了可优化的卷积核来模拟上采样过程,从而使用低分辨率ERA5地图以及气象站观测作为指导生成高分辨率ERA5地图。此外,我们设计的基于局部的方法促进SGD生成任意分辨率的气象状态。实验结果表明,SGD能够将气象状态降尺度到6.25km精度。
发布时间: 2/13/2025
查看原文