LLM2D

arXiv 论文列表

作者: Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Ranjie Duan, Xiaoshuang Jia, Shaowei Yuan, Zhiqiang Wang, Xiaojun Jia
arXiv:2412.05892v3 安全通报类型: 交叉替换 摘要:了解大型视觉语言模型(LVLMs)对牢笼攻击的脆弱性对于其负责任的现实世界部署至关重要。大多数先前的工作需要访问模型梯度,或者依赖人类知识(提示工程)来完成牢笼攻击,它们几乎不考虑图像与文本的交互,因此在黑盒场景中无法实现攻击或性能较差。为了克服这些局限性,我们提出了一种用于毒性最大化的一贯指导双边交互黑盒牢笼攻击,称为 PBI-攻击。我们的方法首先使用替代 LVLM 从有害语料库中提取恶意特征,并将这些特征嵌入到良性图像中作为先验信息。随后,我们通过双向跨模态交互优化增强这些特征,通过贪婪搜索交替优化二模态扰动,旨在最大化生成响应的毒性水平。毒性水平使用训练良好的评估模型进行量化。实验表明,PBI-攻击在三种开源 LVLM 上的平均攻击成功率超过 92.5%,在三种封闭源 LVLM 上的攻击成功率约为 67.3%。免责声明:本文可能包含令人不安和冒犯性的内容。
发布时间: 2/4/2025
查看原文
作者: Ahmed Jaafar, Shreyas Sundara Raman, Yichen Wei, Sudarshan Harithas, Sofia Juliani, Anneke Wernerfelt, Benedict Quartey, Ifrah Idrees, Jason Xinyu Liu, Stefanie Tellex
arXiv:2412.05313v5 通知类型: replace-cross 摘要:高效地学习和执行长期时滞的移动操作(MoMa)任务对于促进家庭和工作场所的机器人技术至关重要。然而,当前的MoMa模型在数据使用上效率低下,强调了需要改进的模型,这些模型需要现实规模的基准来评估其效率,而这样的基准目前并不存在。为了解决这个问题,我们引入了LAMBDA(λ)基准(Long-horizon Actions for Mobile-manipulation Benchmarking of Directed Activities),该基准使用可管理大小的数据集评估模型在语言条件下的长期时滞、多房间、多楼层、拣选和放置任务上的数据效率性,这些数据更容易收集。基准数据集包含571个人工收集的演示,为模拟和真实世界的设置提供了真实性和多样性。与规划器生成的数据不同,这些轨迹提供了自然的变异性并支持回放验证,确保了稳健的学习和评估。我们对多种模型进行了基准测试,包括基于学习的模型和结合了基础模型与任务和运动规划的神经符号模块方法。基于学习的方法即使利用预训练权重,成功率也表现出次优,突显出了显著的数据效率性问题。然而,神经符号方法在数据效率性方面表现更好。研究结果强调了需要更数据高效的基于学习的MoMa方法。λ通过成为未来模型评估数据效率性的重要基准来解决这一缺口,这些未来模型在处理家庭机器人任务时能够更好地处理。
发布时间: 2/4/2025
查看原文
作者: Kasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen
arXiv:2412.04653v3 宣告类型: replace-cross 摘要:随着图像生成器的质量不断提高,深度伪造已成为社会上一个重要的辩论话题。图像水印使负责任的模型所有者能够检测并标记其AI生成的内容,从而减轻其危害。然而,目前最先进的图像水印方法仍然容易受到伪造和移除攻击。这种脆弱性部分原因是由于水印扭曲了生成图像的分布,无意中透露了水印技术的信息。 在本文中,我们首先展示了一种基于扩散模型初始噪声的无失真水印方法。然而,检测水印需要将图像的初始噪声重建并与所有之前使用的初始噪声进行比较。为了缓解这些问题,我们提出了一种两阶段水印框架,以实现高效的检测。在生成过程中,我们通过嵌入我们使用的一组初始噪声的信息来增强初始噪声,包括生成的傅里叶模式。在检测过程中,我们执行以下步骤:(i) 获取相关的一组噪声,(ii) 在给定的组内搜索与我们的图像可能匹配的初始噪声。这种水印方法对广泛的攻击拥有最先进的抗伪造和移除鲁棒性。
发布时间: 2/4/2025
查看原文
作者: Yerram Varun, Rahul Madhavan, Sravanti Addepalli, Arun Suggala, Karthikeyan Shanmugam, Prateek Jain
arXiv:2412.02626v3 公告类型: replace-cross 摘要:大型语言模型(LLMs)通常被训练成沿时间正向预测。然而,近期的研究表明,促使这些模型回溯并批评其自身的生成内容可以产生有用的反馈。受此启发,我们探讨了LLMs是否能够被赋予思考(预测和评分)的能力,以提供补充的无监督反馈,从而增强正向LLMs。为此,我们提出了时间反转语言模型(TRLMs),这些模型在给定响应的情况下能够评估和生成查询,有效地沿时间反向运作。进一步地,为了有效地在查询到响应的方向进行推断,我们从头开始反向词序预训练和微调了一个语言模型(TRLM-Ba)。我们通过实验证明(并在简化设定中从理论上证明),时间反转模型确实能够通过给定响应来评分查询,从而在对多个正向生成内容进行重新排序时补充正向模型的预测。我们在广泛使用的AlpacaEval排行榜上获得了最高5%的改善,超出最优-N重新排序基线,该基线使用自我对数困惑度得分。此外,我们表明,TRLM评分优于反应给查询的传统正向评分,在引文生成和段落检索等应用中实现了显著的收益。接下来,我们利用TRLM的生成能力来增强或提供无监督反馈给LLMs的输入安全过滤器,结果显示在一些公布的针对流行JailbreakBench排行榜的攻击中,错误否定率大幅降低,同时对错误正向率的影响可以忽略不计。
发布时间: 2/4/2025
查看原文
作者: Muhammad Fetrat Qharabagh, Mohammadreza Ghofrani, Kimon Fountoulakis
arXiv:2412.00686v2 宣告类型: replace-cross 摘要:计数是各种现实应用视觉任务中的基本操作,需要同时具备物体识别和稳健的计数能力。尽管大型视觉-语言模型(LVLMs)具有先进的视觉感知能力,但在处理计数任务时却面临挑战,尤其是当物体的数量超过训练期间常见的数量时。我们通过分解-征服方法来增强LVLMs的计数能力,将计数问题分解为子计数任务。我们的方法采用了机制,以防止分解并从而避免对物体的重复计数,这在朴素的分解-征服方法中会发生。与之前的方法不同,这些方法在从未训练过的计数数据集上表现不佳,我们的方法在新的数据集上表现出色,无需任何额外的训练或微调。我们证明了我们的方法能够跨多种数据集和基准提高LVLMs的计数能力。
发布时间: 2/4/2025
查看原文
arXiv:2412.00036v3 公告类型:替换-交叉 摘要:我们提出了一种使用扩散模型方法生成合成金融市场数据的高效且准确的方法论。通过我们的方法论生成的合成数据在几个关键方面与观测到的市场数据紧密一致:(i) 它们通过资产组合的两样本Cramér-von Mises检验;(ii) Q-Q 图显示生成数据和观测到的市场数据在各个分位数,包括极端值部分,具有一致性。此外,从大量合成市场数据导出的协方差矩阵与观测数据的估计协方差矩阵相比,显示出条件数显著降低的特性。这一性质使得它们适合作为后者的正则化版本。在模型训练方面,我们开发了一种基于数值积分的高效快速算法,而不是蒙特卡洛模拟。该方法论在大量的股票数据集上进行了测试。
发布时间: 2/4/2025
查看原文
作者: Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Saizhuo Wang, Kun Zhang, Yuanzhuo Wang, Wen Gao, Lionel Ni, Jian Guo
arXiv:2411.15594v4 宣布类型: replace-cross 摘要:准确且一致的评价对于众多领域的决策至关重要,但由于固有的主观性、变异性以及规模问题,这项任务依然极具挑战性。大规模语言模型(LLMs)在多个领域取得了显著的成功,导致了“LLM作为评判者”的出现,即利用LLMs作为复杂任务的评价者。凭借处理多种数据类型、提供可扩展、低成本且一致的评估的能力,LLMs 提出了与传统专家驱动评估的一种有吸引力的替代方案。然而,确保 LLM 作为评判者系统的可靠性仍是一项重要的挑战,需要细致的设计和标准化。本文对 LLM 作为评判者进行了全面的综述,探讨的核心问题是:如何构建可靠的 LLM 作为评判者系统?我们探讨了增强可靠性的策略,包括提高一致性、缓解偏见以及适应多样化的评估场景。此外,我们提出了用于评估 LLM 作为评判者系统可靠性的方法论,并设计了一个新型基准用于此目的。为了促进 LLM 作为评判者系统的发展和实际部署,我们还讨论了其实用应用、挑战和未来方向。本文为该快速发展的领域中的研究人员和实践者提供了基础参考。
发布时间: 2/4/2025
查看原文
arXiv:2411.14654v3 通告类型: 替换-交叉 摘要:大型语言模型(LLMs)通过在各种任务中提供最先进的性能,已经彻底革新了自然语言处理(NLP)。在这之中,基于Transformer的模型如BERT和GPT依赖于池化层将令牌级嵌入聚合为句子级表示。常见的池化机制如平均值、最大值和加权和在这一聚合过程中发挥着关键作用。尽管这些策略在各种场景中被广泛使用,但在不同LLM架构之间的比较性能仍然未被充分探索。为了解决这一差距,本文探讨了这些池化机制对两种 prominence 的LLM 家族——BERT 和 GPT 在句子级情感分析中的影响。全面的实验表明,每种池化机制根据特定任务的需求表现出独特的 strengths 和 weaknesses。我们的研究结果强调了选择适合特定应用需求的池化方法的重要性,从而促使重新评估关于池化操作的常见假设。通过提供可操作的见解,本研究为基于LLM的模型优化下游任务做出了贡献。
发布时间: 2/4/2025
查看原文
作者: Qiyao Ma, Menglin Yang, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying
arXiv:2411.13865v2 宣告类型: 重置交叉 摘要:现代推荐系统往往创造出信息茧房,限制了用户接触多样内容。关键挑战在于如何在允许用户调整推荐偏好的同时,在内容探索和利用之间取得平衡。直观地说,这种平衡可以用树结构表示,其中深度搜索促进利用,而广度搜索促进探索。然而,现有的方法面临两个根本性的限制:欧几里得方法难以捕捉层次结构,尽管双曲方法在层次建模方面优越,但它们缺乏用户和项目档案的语义理解,并且无法提供一种原则性的机制来平衡探索和利用。为了解决这些挑战,我们提出了HERec,这是一种双曲图-LLM框架,能够有效地在推荐系统中平衡探索和利用。我们的框架引入了两项关键创新:(1) 一种层次感知的图-LLM机制,可以将文本描述与用户-项目协作信息在双曲空间中联合对齐;(2) 一种层次表示结构,使其能够提供用户可调整的探索-利用权衡。广泛的实验证明,HERec在性能指标上始终优于欧几里得和双曲基线,分别在实用性指标上提高了5.49%,在多样性指标上提高了11.39%,有效缓解了信息茧房问题。我们开源了我们的模型实现,地址为:https://github.com/Martin-qyma/HERec。
发布时间: 2/4/2025
查看原文
作者: Kichang Lee, Yujin Shin, Jonghyuk Yun, Songkuk Kim, Jun Han, JeongGil Ko
arXiv:2411.12220v2 公告类型: replace-cross 摘要: 联邦学习(FL)在保持本地数据隐私的同时,在分布式设备之间实现了协作模型训练,使其成为移动和嵌入式系统的理想选择。然而,FL 的去中心化特性也使其容易受到模型投毒攻击,特别是后门攻击,其中对手植入触发模式以操纵模型预测。在本文中,我们提出了一种名为 DeTrigger 的可扩展且高效的后门抗联邦学习框架,该框架借鉴了攻击方法论的见解。通过使用温度缩放的梯度分析,DeTrigger 可检测并隔离后门触发器,从而能够在不牺牲良性模型知识的情况下精确修剪后门激活。在四个广泛应用的数据集上进行的广泛评估表明,DeTrigger 的检测速度比传统方法快 251 倍,并且能够通过高达 98.9% 的程度缓解后门攻击,对全球模型准确性的影响最小。我们的研究结果确立了 DeTrigger 作为一种强大的可扩展解决方案,用于保护联邦学习环境免受复杂的后门威胁。
发布时间: 2/4/2025
查看原文