LLM2D

arXiv 论文列表

作者: Sam Gunn, Xuandong Zhao, Dawn Song
arXiv:2410.07369v4 宣传类型: 替换交叉 摘要:我们提出了首个针对生成图像模型的不可检测水印方案。不可检测性确保即使在进行多次适应性查询后,也无法有效区分嵌入水印和未嵌入水印的图像。具体来说,不可检测水印不会在任何可计算的有效度量下损害图像质量。我们的方案通过使用伪随机纠错码(Christ 和 Gunn, 2024)选择扩散模型的初始隐变量来实现,这一策略保证了不可检测性和鲁棒性。我们使用 Stable Diffusion 2.1 实验性地证明了我们的水印是保质且鲁棒的。我们的实验验证了与我们测试过的每一个之前的方案相比,我们的水印不会损害图像质量。我们的实验还展示了鲁棒性:现有的水印移除攻击无法在不显著损害图像质量的情况下移除我们的水印。最后,我们发现我们可以稳健地将 512 位编码到我们的水印中,而在不遭受水印移除攻击的情况下,最多可编码 2500 位。我们的代码可在 https://github.com/XuandongZhao/PRC-Watermark 上获取。
发布时间: 4/23/2025
查看原文
作者: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
arXiv:2410.05295v4 安全公告类型: 替换-交叉 摘要: 在本文中,我们提出了一种名为AutoDAN-Turbo的黑盒越狱方法,该方法可以从头开始自动发现尽可能多的越狱策略,无需任何人工干预或预定义的范围(例如,指定的候选策略),并使用这些策略进行红队测试。结果表明,AutoDAN-Turbo在公共基准测试中显著优于基线方法,平均攻击成功率高出74.3%。值得注意的是,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率达到了88.5%。此外,AutoDAN-Turbo是一个统一的框架,可以以即插即用的方式整合现有的人类设计的越狱策略。通过整合人类设计的策略,AutoDAN-Turbo在GPT-4-1106-turbo上的攻击成功率甚至达到了93.4%。
发布时间: 4/23/2025
查看原文
arXiv:2410.05056v3 公告类型:替换-交叉 摘要:非线性时间序列模型带有外生回归变量在计量经济学、排队理论和机器学习中至关重要,尽管其统计分析尚未完善。弱依赖变量的关键结果,如大数定律和函数中心极限定理,已经被熟知。我们通过耦合论证展示了外生回归变量的混合同性性质如何传递给响应变量。此外,我们还研究了在随机环境中具有漂移和最小化条件的马尔可夫链,即使在非平稳环境中也具有有利的混合同性性质,并将这种框架应用于单服务器排队模型中。
发布时间: 4/23/2025
查看原文
作者: Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Shi Jie, Xiang Wang, Xiangnan He, Tat-seng Chua
arXiv:2410.02355v4 宣告类型: replace-cross 摘要: 大型语言模型(LLMs)常常由于不正确的或过时的知识而表现出幻觉。因此,已经出现了模型编辑方法来实现有针对性的知识更新。为了实现这一点,当前流行的方法是定位-然后编辑方法,它首先定位有影响力的参数,然后通过引入扰动来编辑它们。虽然这种方法有效,但当前的研究已经证明,这种扰动不可避免地会破坏LLMs中保留的知识,尤其是连续编辑场景中。为了解决这一问题,我们引入了AlphaEdit,这是一种新颖的解决方案,在应用到参数之前,将扰动投影到保留知识的零空间。我们从理论上证明了这种投影确保在查询保留知识时,编辑后的LLMs的输出保持不变,从而减轻了扰动带来的问题。在各种LLMs上的广泛实验,包括LLaMA3、GPT2-XL和GPT-J,表明,通过在投影代码上添加一行额外的代码,AlphaEdit可以提高大多数定位-然后编辑方法的性能,平均提升36.7%。我们的代码可以在以下链接获取:https://github.com/jianghoucheng/AlphaEdit。
发布时间: 4/23/2025
查看原文
作者: Rongfeng Lu, Hangyu Chen, Zunjie Zhu, Yuhang Qin, Ming Lu, Le Zhang, Chenggang Yan, Anke Xue
arXiv:2409.07200v2 通告类型: 替换交叉 摘要:红外成像对于军事和其他监视摄像头的用户尤其有价值。一些基于神经辐射场(NeRF)的最新方法从一系列红外和RGB图像中重建3D热场景。然而,与NeRF相比,3D高斯散点图(3DGS)因其快速训练和实时渲染而占据优势。在本文中,我们提出了ThermalGaussian,这是首个能够以高质量的RGB和热成像模式渲染图像的3DGS方法。首先,我们校准RGB相机和热成像相机,以确保两种模态准确对齐。随后,我们使用对齐后的图像学习多模态3D高斯分布。为了避免任何单模态的过拟合,我们引入了若干多模态正则化约束。我们还开发了针对热模态物理特性的平滑约束。此外,我们贡献了一个名为RGBT-Scenes的真实世界数据集,通过手持红外热像仪捕捉,有助于未来热场景重建的研究。我们进行了全面的实验,证明ThermalGaussian可以实现逼真的热图像渲染并提高RGB图像的渲染质量。借助所提出的多模态正则化约束,我们还将模型的存储成本降低了90%。我们的项目页面位于https://thermalgaussian.github.io/。
发布时间: 4/23/2025
查看原文
作者: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li
arXiv:2409.03597v3 公告类型: replace-cross 摘要:本文介绍了多模态喉镜视频分析系统(MLVAS),这是一个利用音视频数据自动从原始喉镜频闪视频中提取关键视频片段和指标的新系统,以辅助临床评估。该系统将基于视频的声门检测方法与音频关键词识别方法结合,用于分析音视频数据,识别患者的发音并优化视频亮点,以确保最佳的声带运动检查。除了从原始喉镜视频中提取关键视频片段外,MLVAS还能够生成有效的音频和视觉特征以检测声带麻痹(VFP)。使用预训练的音频编码器将患者的语音编码以获取音频特征。视觉特征通过测量左、右声带与分割后的声门掩码估计声门中线的角度偏差来生成。为了获得更好的掩码,我们引入了一种基于扩散的细化方法,该方法在传统的U-Net分割基础上减少误报。我们进行了几项消融研究,以证明所提出的MLVAS中每个模块和模态的有效性。在公共分割数据集上的实验结果表明了我们提出的分割模块的有效性。此外,使用真实临床数据集中的单侧VFP分类结果证明了MLVAS能够提供可靠的、客观的指标以及辅助临床诊断的可视化功能。
发布时间: 4/23/2025
查看原文
作者: Quang H. Nguyen, Thinh Dao, Duy C. Hoang, Juliette Decugis, Saurav Manchanda, Nitesh V. Chawla, Khoa D. Doan
arXiv:2407.10834v3 宣传类型:替换交叉 摘要:机器学习(ML)的迅速进步催生了许多大型语言模型(LLMs),这些模型在各种任务和领域中表现出色。这些LLMs在计算能力或定价方面各不相同。由于每个查询的需求可能因查询的领域或其复杂性而异,因此在应用中默认使用一个LLM通常并不是最佳选择,无论是最大的、最贵的,还是平均测试性能最佳的。因此,选择一个既准确又经济的LLM对于应用程序来说是必要的,但这也仍是一个挑战。在这篇文章中,我们介绍了MetaLLM,这是一种框架,它能够动态和智能地将每个查询路由到一组可用的LLM中的最优模型,以实现分类和多选题作答任务,显著提高了准确性和成本效益。通过将选择问题视为一个多臂 bandit 问题,MetaLLM 在不确定性下平衡了预测准确性和成本效率。我们在包括OpenAI和Together AI在内的流行LLM平台以及开源LLM上进行的实验展示了MetaLLM在实际场景中的有效性,为其未来的扩展奠定了基础。
发布时间: 4/23/2025
查看原文
作者: Shehu AbdusSalam, Steve Abel, Miguel Crispim Romao
arXiv:2405.18471v2 宣告类型: replace-cross 摘要:我们提出符号回归作为一种强大的工具来研究超出标准模型的物理现象。作为基准模型,我们考虑所谓的限制最小超对称标准模型,该模型在大统一尺度下具有四维参数空间。我们提供了一组分析表达式,这些表达式可以根据理论中的参数重现三个低能观测值:希格斯玻色子的质量、μ子的异常磁矩的贡献以及冷暗物质遗迹密度。为了展示该方法的优势,我们使用符号表达式进行了全局拟合分析,以推导出参数的后验概率密度,这些概率密度与传统方法相比,获取速度极为迅速。
发布时间: 4/23/2025
查看原文
作者: Runze Lin, Junghui Chen, Lei Xie, Hongye Su
arXiv:2404.00247v3 宣布类型: replace-cross 摘要:在工业4.0和智能制造的背景下,过程工业优化与控制领域也正在进行数字化转型。随着深度强化学习(DRL)的兴起,其在过程控制中的应用受到了广泛关注。然而,DRL 中探索导致的极低样本效率及安全性问题阻碍了其在工业环境中的实际应用。迁移学习为 DRL 提供了一种有效的解决方案,增强了其在多模式控制场景中的泛化能力和适应性。本文从迁移学习的角度探讨了 DRL 在过程控制中的应用。我们分析了在过程工业中应用 DRL 所面临的挑战以及引入迁移学习的必要性。此外,我们还为未来如何将迁移学习与 DRL 结合以增强过程控制的研究方向提供了建议和展望。本文旨在为过程工业中的学者和工程师提供一些建议,介绍一些有望实现、用户友好、易于实施并具有扩展性的方法,以促进由人工智能辅助的工业控制的发展。
发布时间: 4/23/2025
查看原文
作者: Yui Lo, Yuqian Chen, Dongnan Liu, Wan Liu, Leo Zekelman, Fan Zhang, Yogesh Rathi, Nikos Makris, Alexandra J. Golby, Weidong Cai, Lauren J. O'Donnell
arXiv:2403.19001v4 宣布类型: 替换-交叉 摘要:形状在计算机图形学中扮演着重要角色,提供了有关对象形态和功能的信息特征。在脑成像中的形状分析有助于解释人类大脑的结构和功能相关性。在这项工作中,我们研究了大脑3D白质连接的形状及其与人类认知功能的潜在预测关系。我们使用扩散磁共振成像(dMRI)追踪法重建大脑连接,将其表示为3D点的序列。为了描述每条连接,我们提取了12个形状描述符,以及传统的dMRI连接性和组织微观结构特征。我们提出了一个新颖的框架,即融合纤维簇变换器(SFFormer),该框架利用了多头交叉注意力特征融合模块,基于dMRI追踪预测个体特定的语言表现。我们在包括1065名健康年轻人的大数据集上评估了该方法的性能。结果显示,基于变换器的SFFormer模型及其与形状、微观结构和连接性的特征融合都是有信息量的,二者结合可以提高对个体特定语言绩效评分的预测。总体而言,我们的结果表明,大脑连接的形状预测了人类语言功能。
发布时间: 4/23/2025
查看原文