LLM2D

arXiv 论文列表

作者: Shih-Wen Ke, Guan-Yu Lai, Guo-Lin Fang, Hsi-Yuan Kao
arXiv:2503.20320v1 类型:交叉 摘要:大型语言模型(LLMs)旨在使其响应与人类价值观保持一致。本研究利用迭代提示技术,其中每次提示在多次迭代中系统地修改和优化,以逐步增强其在破解攻击中的有效性。该技术涉及分析LLMs(包括GPT-3.5、GPT-4、LLaMa2、Vicuna和ChatGLM)的响应模式,使我们能够调整和优化提示以逃避LLMs的伦理和安全约束。说服策略增强了提示的有效性,同时保持与恶意意图的一致性。结果显示,随着攻击提示变得更加完善,攻击成功率(ASR)有所提高,其中GPT4和ChatGLM的最高ASR为90%,而LLaMa2的最低ASR为68%。我们的技术在ASR方面优于基准技术(PAIR和PAP),并在ASR方面与GCG和ArtPrompt具有可比表现。
发布时间: 3/27/2025
查看原文
作者: Sunayana Sitaram, Adrian de Wynter, Isobel McCrum, Qilong Gu, Si-Qing Chen
arXiv:2503.20302v1 宣告类型: cross 摘要: 误称是指使用与某人所选身份不符的性别来进行指称的行为。这会削弱一个人对其自我认知的感受,造成严重伤害。基于英语的方法在这方面有明确避免误称的方法,例如使用代词“they”。“他们”等代词能够明确地指代某个具体的人,避免了性别冲突。然而,其他语言由于语法和文化结构的不同,呈现出独特的挑战。在本工作中,我们开发了一种方法来评估并缓解42种语言和方言中的误称问题,并采用了参与式设计方法来设计适用于所有语言的有效和合适的防护措施。我们在一个标准的大规模语言模型基础应用(会议纪要摘要化)中测试了这些防护措施,其中数据生成和标注步骤均采用了人工参与的方式。我们发现,提出的防护措施在所有语言生成的摘要中显著减少了误称率,且未牺牲质量。我们的人工参与方法展示了在多种语言和文化中可行地规模化实施包容性和负责任的人工智能解决方案的方法。
发布时间: 3/27/2025
查看原文
作者: Xinghao Wang, Changtao Miao, Dianmo Sheng, Tao Gong, Qi Chu, Bin Liu, Nenghai Yu
arXiv:2503.20294v1 型别:交叉学科 摘要:恶意图像篡改带来了社会风险,增加了有效图像篡改检测方法的重要性。近年来,在图像篡改检测方面的进展主要依靠完全监督的方法,这些方法需要耗费大量劳动力的像素级注释。因此,探索仅需图像级别二进制标签即可进行训练的弱监督图像篡改定位方法是至关重要的。然而,现有的弱监督图像篡改方法忽略了边信息对于准确定位的重要性,导致定位性能不佳。为解决这一问题,我们提出了一种上下文感知边界定位(CABL)模块,以聚合边界特征并学习上下文不一致性,以便定位篡改区域。此外,通过利用类激活映射(CAM)和分割万物模型(SAM),我们引入了CAM引导的SAM细化(CGSR)模块,以生成更准确的篡改定位图。通过结合两个模块,我们基于双分支Transformer-CNN架构提出了一种新颖的弱监督框架。我们的方法在多个数据集上实现了卓越的定位性能。
发布时间: 3/27/2025
查看原文
arXiv:2503.20291v1 类型: cross 摘要: 在中间分辨率(4-8 Å)下增强低温电子显微镜(cryo-EM)3D密度图在蛋白质结构确定中至关重要。近年来,深度学习的进步导致了增强实验cryo-EM密度图的自动化方法的发展。然而,这些方法并未针对中间分辨率的图进行优化,且依赖于密度特征本身。为解决这一问题,我们提出了一种名为CryoSAMU的新型方法,该方法使用结构感知的多模态U-Net,并在整理的中间分辨率密度图上进行训练,以增强蛋白质结构的3D cryo-EM密度图。我们全面地对CryoSAMU在各种指标下进行了评估,并展示了其与最先进的方法相比具有竞争力的性能。值得注意的是,CryoSAMU实现了显著更快的处理速度,显示出其在未来实际应用中的潜力。我们的代码可在https://github.com/chenwei-zhang/CryoSAMU获取。
发布时间: 3/27/2025
查看原文
作者: Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Yu Tsao, Junichi Yamagishi, Yuxuan Wang, Chao Zhang
arXiv:2503.20290v1 声音质量评估类型:交叉 摘要:本文通过利用自然语言描述探索了声音质量评估的新视角,提供了比传统数值评分方法更为丰富、细腻的洞察。自然语言反馈提供了有指导性的建议和详细的评估,然而现有的数据集缺乏实现这一方法所需的全面注释。为弥补这一差距,我们引入了QualiSpeech,这是一个涵盖11个关键方面并包含详细自然语言评论(包括推理和上下文洞察)的全面性低级声音质量评估数据集。此外,我们提出QualiSpeech基准来评估听觉大语言模型(LLMs)的低级声音理解能力。实验结果表明,微调后的听觉LLMs可以可靠地生成详细的噪声和失真描述,有效识别其类型和时间特征。结果进一步强调了纳入推理以提高质量和评估准确性和可靠性的潜力。该数据集将在https://huggingface.co/datasets/tsinghua-ee/QualiSpeech发布。
发布时间: 3/27/2025
查看原文
作者: Hongye Cao, Fan Feng, Jing Huo, Shangdong Yang, Meng Fang, Tianpei Yang, Yang Gao
arXiv:2503.20285v1 宣布类型: cross 摘要: 基于模型的离线强化学习(Offline RL)通过从离线数据集中构建环境模型来进行保守的策略优化。现有的方法主要集中在通过集成模型学习状态转换,并通过保守估计回放来减轻外推错误。然而,静态的数据使得开发出稳健的策略变得具有挑战性,且离线代理无法访问环境来收集新的数据。为了解决这些挑战,我们引入了基于模型的离线强化学习与对抗数据增强(MORAL)。在MORAL中,我们通过使用对抗数据增强来替代固定的时序回放,采用交替采样与集成模型结合的方式丰富训练数据。具体来说,这一对抗过程动态地选择针对策略的集成模型进行有偏采样,减轻了固定模型的乐观估计,从而稳健地扩大训练数据以优化策略。此外,还整合了一种差分因子到对抗过程中,以确保外推误差的最小化。这种数据增强优化能够适应各种离线任务,无需调整回放时序长度,显示出显著的应用潜力。广泛的D4RL基准实验表明,MORAL在策略学习和样本效率方面优于其他基于模型的离线RL方法。
发布时间: 3/27/2025
查看原文
作者: Kwonyoung Kim, Jungin Park, Jin Kim, Hyeongjun Kwon, Kwanghoon Sohn
arXiv:2503.20282v1 宣传类型: cross 摘要: 参数高效的调优(PET)旨在通过学习少量参数将预训练的基础模型转移到下游任务上。与更新整个模型的传统微调相比,PET 在任何情况下都显著减少了每个任务的存储和传输成本,即使预训练模型的容量呈指数级增长也是如此。然而,大多数PET方法继承了其大型骨干模型的推理延迟,并且由于额外模块(例如适配器)的引入,经常增加了额外的计算开销,限制了它们在计算密集型应用中的实用性。在本文中,我们提出了一种新颖的方法快速参数高效的调优(FPET),该方法在保持高存储效率的同时增强了推理速度和训练效率。具体来说,我们引入了一个即插即用的令牌冗余减少模块,专门设计用于PET。该模块使用适配器对自我注意层的令牌进行细化,以学习令牌之间的准确相似性,并通过完全可微的令牌合并策略切断令牌,该策略使用直通过估估计器进行最优令牌减少。实验结果证明,我们的FPET在保持与最先进的PET方法相当的性能的同时,实现了更快的推理速度和更高的内存效率。
发布时间: 3/27/2025
查看原文
作者: Chenglong Wang, Pujia Zheng, Jiaping Gui, Cunqing Hua, Wajih Ul Hassan
arXiv:2503.20281v1 交叉公告类型:cross 摘要:网络入侵检测系统(NIDS)对于确保企业安全至关重要。近年来,基于图的NIDS(GIDS)由于能够有效捕捉数据通信中图结构内的复杂关系而引起了广泛关注。尽管如此,这些GIDS的可重现性和可复制性仍然很大程度上未被探索,这给开发可靠和稳健的检测系统带来了挑战。这项研究通过设计一种系统性的方法来评估最先进的GIDS,从而填补了这一空白,该方法包括对这些系统的发现进行批判性评估、扩展和澄清。我们还评估了GIDS在对抗性攻击下的稳健性。评估是在三个公开数据集以及一个新收集的大型企业数据集上进行的。我们的研究发现揭示了显着的性能差异,突显了与数据集规模、模型输入和实现设置相关的挑战。我们展示了再现和复制结果的困难,特别是在假阳性率和对抗性攻击的稳健性方面。本研究提供了对未来研究有价值的见解和建议,强调了在开发稳健和可泛化的GIDS解决方案中进行严格的再现和复制研究的重要性。
发布时间: 3/27/2025
查看原文
作者: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song
arXiv:2503.20279v1 安全公告类型: 交叉 摘要: 大型语言模型(LLMs)越来越多地被部署为计算机使用代理,在现实的桌面或网络环境中自主执行任务。这一演变极大地扩展了人类的实际使用案例,但也创造了严重的安全暴露。我们提出了基于屏幕的通用解毒到中毒攻击框架SUDO(Screen-based Universal Detox2Tox Offense),这是一种新颖的攻击框架,系统地绕过了商用计算机使用代理中拒绝训练的防护措施,例如Claude Computer Use。核心机制Detox2Tox将代理最初拒绝的有害请求通过解毒转换为看似无害的请求,从高级视觉语言模型(VLMs)获取详细的指令,然后在执行不久前通过中毒重新引入恶意内容。与传统的出狱攻击不同,SUDO基于内置的拒绝反馈迭代优化其攻击,使其在面对坚固的策略过滤器时越来越有效。在跨越50个实际任务和多个最先进的VLMs的广泛测试中,SUDO在未经优化的情况下实现了24%的攻击成功率,在Claude Computer Use中则达到了最高41%(通过其迭代优化)。通过对这些漏洞的揭示以及示实在世界计算环境中如此容易被利用,本论文强调了亟需构建稳健的、情境感知的安全防护。警告:本文包括有害或冒犯性的模型输出。
发布时间: 3/27/2025
查看原文
作者: Yejin Kwon, Daeun Moon, Youngje Oh, Hyunsoo Yoon
arXiv:2503.20252v1 交叉公告类型 摘要:异常检测(AD)侧重于检测与标准模式不同的样本,使其成为过程控制中至关重要的工具。逻辑异常可能会在视觉上显得正常,但却违反了对物体存在、排列或数量预先定义的约束条件,这取决于逻辑推理和解释性。我们提出了LogicQA,这是一种增强AD的框架,通过为工业操作员提供逻辑异常的解释来增强AD。LogicQA 自动生成问题并将其编译成检查表,收集响应以识别逻辑约束的违反情况。LogicQA 是无需训练的、无需标注的,并在少数样本设置下运行。我们在公共基准测试 MVTec LOCO AD 上实现了最先进的(SOTA)逻辑AD性能,AUC ROC 为 87.6%,F1-max 为 87.0%,同时还提供了异常的解释。此外,我们的方法在半导体 SEM 企业数据上表现出色,进一步证明了其在工业应用中的有效性。
发布时间: 3/27/2025
查看原文