arXiv:2503.04832v5 通知类型: 替换-交叉
摘要:可学习的图像压缩(LIC)已显示出在RD效率上可能超越标准化视频编解码器的潜力,从而推动了硬件友好型实现的研究。现有的大多数LIC硬件实现优先考虑延迟而不是RD效率,并通过对硬件设计空间的广泛探索来实现这一点。我们提出了一种新的设计范式,其中将为特定硬件平台调整设计的负担转移到模型维度化上,而不牺牲RD效率。首先,我们设计了一种框架,通过调整单一模型的超参数,可以从参考教师模型中提取一个更精简的学生LIC模型,而无需复杂的硬件设计探索。第二,我们提出了一种硬件友好的通用分割归一化-GDN激活实现方案,即使在参数量化后也能保持RD效率。第三,我们设计了一种流水线化的FPGA配置,通过利用并行处理并优化资源分配,充分利用了可用的FPGA资源。我们的实验显示,与最先进的LIC模型相比,我们在FPGA实现上取得了更好的性能,同时与原始模型的性能非常接近。
arXiv:2503.02857v3 宣告类型: replace-cross
摘要:在生成式AI日益真实的背景下,稳健的换脸检测对于减轻欺诈和虚假信息至关重要。虽然许多换脸检测器在学术数据集上报告了高准确性,但我们表明,这些学术基准已经过时且不能代表真实世界的换脸。我们引入了Deepfake-Eval-2024,这是一个新的包含2024年从社交媒体和换脸检测平台用户中收集的真实世界换脸的新换脸检测基准。Deepfake-Eval-2024包含45小时的视频、56.5小时的音频和1,975张图片,涵盖了最新的篡改技术。该基准包含来自52种不同语言的88个不同网站上的多媒体内容。我们发现,当在Deepfake-Eval-2024上评估开源最先进的换脸检测模型时,其性能急剧下降,与先前基准相比,视频模型的AUC降低了50%,音频模型降低了48%,图像模型降低了45%。我们还评估了商用换脸检测模型和在Deepfake-Eval-2024上微调的模型,并发现它们在性能上优于现成的开源模型,但尚未达到换脸法医分析师的准确性。数据集可在https://github.com/nuriachandra/Deepfake-Eval-2024 获取。
arXiv:2502.19694v2 通告类型: 交叉替换
摘要:鸟瞰图(BEV)表示在自动驾驶任务中起着关键作用。尽管在BEV生成方面取得了近期进展,但源自传感器限制和学习过程的固有噪声依然未得到充分解决,导致次优的BEV表示,从而负面影响了下游任务的性能。为了解决这一问题,我们提出了BEVDiffuser,这是一种新型扩散模型,利用真实物体布局作为指导有效地去噪BEV特征图。BEVDiffuser可以在训练期间以即插即用的方式操作,增强现有的BEV模型而无需任何架构上的修改。在具有挑战性的nuScenes数据集上的大量实验表明,BEVDiffuser具有出色的去噪和生成能力,能够显著增强现有BEV模型的表现,如在无额外计算复杂度的情况下,3D物体检测的mAP提升12.3%,NDS提升10.1%。此外,在长尾物体检测以及在恶劣天气和照明条件下仍显示出显著的性能改进,进一步验证了BEVDiffuser在去噪和增强BEV表示方面的有效性。
arXiv:2502.17513v2 宣告类型: replace-cross
摘要:本文记录了 Int2Int,这是一个开源代码库,用于在数学研究问题上使用变换器,重点关注数论和其他涉及整数的问题。Int2Int 是一个完整的 PyTorch 实现的变换器架构,包括训练和评估循环,以及表示、生成和解码常见数学对象的类和函数。还提供了数据准备的辅助代码和用于可视化实验结果的 Jupyter 笔记本。本文介绍了 Int2Int 的主要功能,作为其用户手册,并提供了扩展它的指南。Int2Int 在 https://github.com/f-charton/Int2Int 下以 MIT 许可证发布。
arXiv:2502.15077v2 宣告类型: replace-cross
摘要:自SORA表现出色的性能以来,用于视频生成的扩散变换器引起了大量的研究兴趣。在GPU上高效部署这类生成型AI模型已被动态量化技术证明可行。然而,资源受限的设备无法支持动态量化,需要对模型进行静态量化,以便在AI处理器上高效部署。在本文中,我们提出了一种新的方法,用于OpenSora(参见[opensora])的后训练量化,无需依赖动态量化技术。我们的方法采用静态量化,其在CLIP和VQA指标上达到的视频质量与FP16和动态量化ViDiT-Q方法相当。特别是,我们利用每一步的校准数据为每个时间步提供适当的后训练静态量化模型,并且在权重上使用通道级量化,在激活上使用张量级量化。进一步应用平滑量化技术,可以使用静态量化模型获得高质量的视频输出。广泛的实验结果表明,静态量化可以作为视频扩散变换器动态量化的一种可行替代方案,提供了一种更高效的方案而不牺牲性能。
arXiv:2502.10725v2 Announce Type: replace-cross
摘要:基于变压器的嵌入方法近年来在句子表示领域占据了主导地位。尽管它们在自然语言处理任务(如语义文本相似性任务)上取得了卓越的性能,但它们的黑盒性质和依赖大量数据的训练方式引发了关于偏差、信任和安全方面的问题。许多人已经致力于提高嵌入模型的可解释性,但这些问题尚未根本解决。为了实现内置的可解释性,我们提出了一种纯白盒且类人类的句子表示网络——PropNet。PropNet受到认知科学发现的启发,基于句子中包含的命题构建了一个层次网络。虽然实验表明,在语义文本相似性任务(SOTA)嵌入模型方面,PropNet存在显著差距,但案例研究表明仍有很大的改进空间。此外,PropNet使我们能够分析和理解ST斯马克任务背后的人类认知过程。
arXiv:2502.00639v2 通知类型: 替换交叉
摘要:通过递归链结构进行推断以生成内容的概率扩散模型(DM)已经成为了视觉生成的强大框架。经过大规模未标注数据的预训练后,该模型需要进行适当的对齐以满足下游应用的要求。如何高效地对基础 DM 进行对齐是一个关键任务。现有的方法要么基于强化学习 (RL),要么基于截断反向传播 (BP)。然而,RL 和截断 BP 分别在样本效率低和梯度估计偏差方面存在问题,导致改善有限,甚至在某些情况下会导致完全训练失败。为了克服这些挑战,我们提出了递归似然比率 (RLR) 优化器,这是一种用于 DM 的零阶启发式微调范式。零阶梯度估计器使得在递归扩散链中进行计算图重新排列成为可能,使得 RLR 的梯度估计器具有比其他方法更低的方差且是无偏估计。我们为 RLR 的性能提供了理论保证。在图像和视频生成任务中进行了广泛的实验,以验证 RLR 的优越性。此外,我们提出了一种新型提示技术,该技术非常适合 RLR,从而实现了协同效应。
arXiv:2501.18131v2 宣告类型: replace-cross
摘要:基于熵的检测方法由于能够分析可执行文件内的结构性不规则,并特别适用于识别采用高级混淆技术的恶意软件而受到了广泛关注。熵同步神经哈希(ESNH)框架提出了一种新颖的方法,该方法利用熵驱动的哈希表示来根据软件二进制文件的底层熵特征进行分类。通过将熵谱与神经网络架构同步,该模型生成了稳健且独特的哈希值,即使在面临多态性和变种变换时也能保持稳定。与传统检测方法的对比分析显示,该方法在识别新型威胁、降低误报率以及在多种不同类型的勒索软件家族中实现一致分类方面表现出更优性能。通过引入一个自我调节的哈希收敛机制,进一步确保了熵同步哈希在执行过程中保持不变,从而减少了由于勒索软件载荷的动态修改而产生的分类不一致性。实验结果表明,该模型对当前勒索软件变种的检测率很高,能够抵御基于加密的规避机制、代码注入策略和反射加载技术。与依赖于静态签名和启发式分析的传统检测机制不同,所提出的熵感知分类框架通过内在捕获可执行结构中的熵异常能力,能够适应新兴威胁。这些发现强调了熵基检测在解决传统方法限制方面的作用,并增强了对混淆和对手规避技术的检测鲁棒性。
arXiv:2501.17167v2 通知类型: replace-cross
摘要: 我们引入了QualityFlow,这是一种用于程序合成的动态代理工作流。给定编程问题的英文描述和一组单元测试,模型的目标是合成正确的程序来解决该问题并通过测试。QualityFlow 包含大型语言模型(LLM)代理,模仿一个软件开发团队,包括代码生成、测试和自我调试。我们提出了LLM质量检查器,该检查器明确地“想象”合成程序的执行是否符合单元测试的要求。质量检查动态控制工作流,包括提交最终答案、澄清问题陈述以及撤销先前的工作流步骤。我们的实验表明,质量检查器可以精确地接受任何正确的程序、减轻故障合成测试的影响,并防止潜在的工作流偏移。QualityFlow 在四个程序合成基准测试中达到了最先进的成果:MBPP、HumanEval,以及来自MBPP-EvalPlus和HumanEval-EvalPlus的更严格的评估。
arXiv:2501.15405v2 宣告类型: replace-cross
摘要:语义分层嵌入扩散(SLED)机制重新定义了基于Transformer架构中层级语义的表示,使广泛的语言任务具有增强的上下文一致性。通过引入基于谱分析的多层扩散过程,它实现了全局和局部语义一致性的复杂平衡。实验结果表明,在困惑度和BLEU评分方面有显著改进,强调了该机制在不同领域,包括多语言和跨域文本生成中有效适应的能力。嵌入扩散过程的基础是一个严密的数学框架,包含加权邻接矩阵、核基改进和动态层归一化。误差分布分析表明,SLED解决了语义对齐和一致性的挑战,在多种基准测试中优于基线方法。可扩展性研究展示了其在不同模型大小上的性能提升保持一致性,反映出在计算效率和语言精确性之间的一种实用平衡。该实现还实现了能效,减少了训练和推理阶段的资源消耗,而不牺牲准确性。质性案例研究进一步验证了其在扩展叙述和上下文密集场景中的适应性,突显了该机制在实际应用中的潜力。SLED为嵌入设计及其对推进语言建模的影响提供了不同的视角。