arXiv:2502.07857v1 宣传类型: cross
摘要:因果发现对于大量变量来说可能会非常计算密集。如果我们只想估计目标变量子集的因果效应,那么我们可能不需要学习所有变量的因果图,而只需要包含目标变量及其调整集的较小子图。本文中,我们关注在计算和统计效率方面以一种有效的方式识别目标变量之间的因果效应。这项任务将因果发现与需要估计的效应相结合,使发现目标与要估计的效应保持一致。我们表明,明确的目标非祖先变量在学习目标变量之间的因果关系以及识别有效的调整集方面是不必要的。我们通过我们的Sequential Non-Ancestor Pruning (SNAP)框架,以顺序的方式识别并裁剪这些明确的目标非祖先变量,该框架可以作为标准因果发现方法的预处理步骤使用,也可以作为独立的完备且正确的因果发现算法使用。我们在合成数据和真实数据上的结果表明,这 Both approaches 显著减少了独立性检验的数量和计算时间,而不会牺牲因果效应估计的质量。
arXiv:2502.07856v2 控制生成类型: 交叉
摘要:在扩散模型的应用中,可控生成具有实际意义,但也颇具挑战性。当前的可控生成方法主要集中在修改扩散模型的分数函数上,而反向收敛(MR)扩散直接修改随机微分方程(SDE)的结构,使得图像条件的融入更简单且更自然。然而,当前的无训练快速采样器不直接适用于MR扩散。因此,MR扩散需要数百次NFE(函数评估次数)才能获得高质量样本。本文中,我们提出了一种新算法MRS(MR采样器),以减少MR扩散的采样NFEs。我们解决了与MR扩散相关的逆时SDE和概率流常微分方程(PF-ODE),并推导出了半解析解。解由一个解析函数和一个由神经网络参数化的积分组成。基于此解,我们可以在更少的步骤中生成高质量样本。我们的方法不需要训练,并支持所有主流参数化,包括噪声预测、数据预测和速度预测。广泛实验表明,在十个不同的图像恢复任务中,MR采样器保持了高质量的采样,速度快了10到20倍。我们的算法加速了MR扩散的采样过程,使其在可控生成中更加实用。
arXiv:2502.07855v1 类别:交叉
摘要:视觉大型语言模型(VLMs)结合了视觉理解与自然语言处理能力,使得图像字幕、视觉问答和视频分析等任务成为可能。虽然VLMs在自动驾驶、智能监控和医疗保健等多个领域展示了令人印象深刻的能力,但由于处理能力、内存和能源的限制,它们在资源受限的边缘设备上的部署依然富有挑战性。本文综述了最近在优化VLMs以适应边缘环境方面的进展,重点关注模型压缩技术,包括剪枝、量化、知识蒸馏以及增强效率的专用硬件解决方案。我们详细讨论了高效训练和微调方法、边缘部署挑战和隐私问题。此外,我们还探讨了轻量级VLMs在医疗保健、环境监测和自主系统等多个领域的广泛应用,以及它们日益增长的影响。通过强调关键设计策略、当前挑战并提出未来发展方向的建议,本文旨在激发进一步研究VLMs的实际部署,最终使先进的AI技术在资源受限的环境中普及。
arXiv:2502.07849v1 交叉公告类型:
摘要:近期的研究对分类器无引导(Classifier-Free Guidance, CFG)的有效性提出了担忧,表明在低维环境中,它可能导致目标分布的过度偏离,并减少样本多样性。在本工作中,我们展示了在无限和足够高维的背景下,CFG 有效地再现了目标分布,揭示了一个维度的祝福结果。此外,我们探讨了有限维度的影响,精确地表征了过度偏离和方差减少。基于我们的分析,我们引入了非线性的 CFG 扩展。通过高斯混合模型上的数值模拟以及类别条件和文本到图像扩散模型的实验,我们验证了我们的分析,并展示了我们的非线性 CFG 在不增加计算成本的情况下提供了更好的灵活性和生成质量。
arXiv:2502.07845v1 类别: cross
摘要: 近年来的生成模型在产生逼真图像方面取得了显著进步。生成内容的质量大幅提高,有时几乎难以区分真实图像和生成的图像。这种改进带来了关于生成模型使用方面的伦理问题:生成模型的用户可能会不当声称其生成内容的所有权,这些内容受版权保护。在本文中,我们提出了一种方法,将水印嵌入生成内容中,以便于未来检测生成内容并识别生成它的用户。水印是在模型推理过程中嵌入的,因此所提出的方法不需要重新训练模型。我们证明水印对于有界幅度的附加扰动具有鲁棒性。我们将该方法应用于水印扩散模型,并展示了它在不同类型的合成水印去除攻击中的鲁棒性方面与最先进的水印方案相当。
arXiv:2502.07842v1 公告类型: cross
摘要: 计算在内存中 (Compute-in-memory, CIM) 是实现深度神经网络 (DNNs) 的一种高效方法,但由于模数转换器 (ADC) 的大量开销,特别是在 ADC 精度增加时,其表现不佳。低精度 ADC 可以减少这种开销,但会引入部分和量化误差,从而降低准确性。此外,由于单元限制和更高精度权重的需要,低位权重约束会带来进一步的挑战。虽然已经研究了细粒度的部分和量化来有效降低 ADC 分辨率,但权重粒度限制了整体部分和量化精度的问题仍然没有充分被探索。本文通过在列级对齐权重和部分和量化粒度解决了这些挑战。我们的方法在保持反量化开销的同时提高了准确性,简化了训练并消除了两阶段过程,通过独立的列级缩放因子确保了对内存单元变异的稳健性。我们还提出了一种面向 CIM 的高效卷积框架,用于高效处理细粒度的权重和部分和,该框架包含一种新颖的编排方法和分组卷积。实验结果显示,在 ResNet-20 (CIFAR-10, CIFAR-100) 和 ResNet-18 (ImageNet) 上,与相关工作中表现最佳的工作相比,准确率分别提高了 0.99%、2.69% 和 1.01%。此外,变异分析揭示了我们方法在面对内存单元变异时的稳健性。这些发现突出了我们量化方案在提高准确性和稳健性的同时,保持硬件效率的有效性。我们的代码可在 https://github.com/jiyoonkm/ColumnQuant 获得。
arXiv:2502.07838v2 宣布类型: cross
摘要:视觉语言模型(VLMs),如GPT-4V和Llama 3.2视觉,因其能够利用大规模语言模型(LLMs)进行多模态任务而吸引了大量的研究关注。然而,它们的潜力受到内在挑战的限制,包括产权限制、巨大的计算需求以及有限的可访问性。较小的模型,如GIT和BLIP,表现出明显的限制,即使经过大量训练,也无法生成连贯一致的文本,超过几个标记。这突出了一项关键的疑问:VLM能小到什么程度还能生成流畅且一致的文本?受到3-4岁儿童极其依赖视觉线索来理解和沟通的启发,我们引入了两个新的数据集:ShortDesc(包含简明的图像描述)和LongDesc(包含更详细的图像描述)。这些数据集包括图像-文本对,其中文本仅限于儿童常用的简单词汇和语法,并使用缩小版的模型GPT-4o生成。使用这些数据集,我们证明了可以训练显著更小的VLM,最多可比最先进的(SOTA)小型VLM小10倍,同时保持架构的简单性。为了评估输出,我们利用GPT-4o以学生写作作品的形式对文本进行评分,评估其创意性、意义性和一致性,给出0至10分的评分。这种方法通过适应结构化不足的输出并提供多维度评估模型能力来弥补标准基准的局限性。我们的研究结果为资源受限环境中开发轻量级、易于访问的多模态模型做出了贡献。
arXiv:2502.07835v1 交叉公告类型
摘要:大型语言模型(LLMs)在软件工程中的崛起,尤其是在代码生成方面,受到了广泛关注。然而,评估AI生成的代码质量仍然是一个挑战,这主要是由于编程任务的固有复杂性和缺少与人类判断相匹配的稳健评估标准。传统的基于令牌的指标,如BLEU和ROUGE,在自然语言处理中常被使用,但在代码智能和验证任务中与人类评估的相关性较弱。此外,这些指标主要侧重于研究,且不适用于无缝集成到软件开发生命周期中,限制了它们对开发人员改进代码质量和安全的实际用途。
AI辅助编码对高级开发人员更有益,因为他们具备高度的分析能力,能够批判性地评估生成的代码以确保其正确性、完整性和合规性。相比之下,初级开发人员可能难以识别生成代码中的幻觉、缺失功能或错误逻辑。为解决这一问题,本文提出了一种新的评分机制SBC分数,该机制基于一种逆向生成技术,利用LLMs的自然语言生成能力。与直接对代码进行分析不同,我们的方法是从AI生成的代码中重建系统需求,并将其与原始规范进行比较,以量化准确性。SBC分数结合了语义相似性、BLEU和完整性的分析,为开发者提供行动建议,通过突出显示缺失的功能和幻觉来帮助他们。我们的代码和数据集可在GitHub上获得。
arXiv:2502.07834v1 Announce Type: cross
摘要:在In-Memory Computing (IMC)架构上实现Hyperdimensional Computing (HDC)面临着巨大的挑战,这主要是由于高维向量与IMC阵列大小之间的不匹配,导致内存利用效率低下并增加了计算周期。本文提出了一种名为MEMHD的内存高效多中心HDC框架,旨在解决这些挑战。MEMHD引入了一种基于聚类的初始化方法和多中心联想记忆的量化感知迭代学习。通过这些方法和整体架构,MEMHD实现了内存需求的显著减少,同时保持或提高分类准确性。我们的方法能够充分利用IMC阵列并实现一次性(或少量几次)联想搜索。实验结果表明,MEMHD在相同的内存使用量下优于最先进的二进制HDC模型,准确率最高可提高13.69%,或者在相同的准确率水平下实现了13.25倍的内存效率。此外,当映射到128x128的IMC阵列时,MEMHD将计算周期减少多达80倍,阵列使用量减少多达71倍,同时显著提高了能效和计算周期效率。
arXiv:2502.07832v1 宣告类型:交叉
摘要:尽管大规模语言模型(LLMs)在自然语言处理任务上取得了进展,但它们不断增长的计算和内存需求使其在资源受限的设备(如手机)上的部署变得越来越具有挑战性。在本文中,我们提出了一种名为SHARP(SHaring Adjacent Layers with Recovery Parameters)的新方法,通过在相邻层之间共享参数来加速LLM推理,从而减少内存负载开销,并引入低秩恢复参数以保持性能。受连续层具有相似输出观察的启发,SHARP采用两阶段恢复过程:单层预热(SLW)和监督微调(SFT)。SLW阶段使用L2损失对共享层的输出进行对齐,为后续的SFT阶段提供良好的初始化,进一步恢复模型性能。大量的实验结果表明,SHARP可以在使用不超过50,000个微调数据的情况下,恢复各种同分布任务中的模型困惑度,同时将存储的MLP参数数量减少38%至65%。我们还进行了SHARP的几个消融研究,并展示了在匹配参数计数时,不同的恢复参数化表现相似。此外,与原版的Llama2-7b模型相比,SHARP在移动设备上节省了42.8%的模型存储空间,并将总推理时间减少了42.2%。我们的结果强调了SHARP作为无需大规模预训练资源即可减少部署LLM时推理成本的有效解决方案的地位。