LLM2D

arXiv 论文列表

作者: Qingsong Zou, Jingyu Xiao, Qing Li, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li, Yong Jiang
arXiv:2502.09723v1 安全类型:跨域 摘要:近年来,大规模语言模型(LLMs)在自然语言处理领域的应用展示了显著的潜力。不幸的是,LLMs 面临着重大的安全和伦理风险。尽管已经开发出了诸如安全对齐等技术来防御攻击,但先前的研究揭示了通过精心设计的监狱逃脱攻击绕过这些防御的可能性。在本文中,我们提出了 QueryAttack,这是一种新颖的框架,用于系统地检验安全对齐的一般适用性。通过将 LLM 视为知识数据库,我们将自然语言中的恶意查询转化为代码风格的结构化查询,以便绕过 LLM 的安全对齐机制。我们在主流的 LLM 上进行了广泛的实验,结果显示,QueryAttack 在不同开发者和能力的 LLM 上都实现了较高的攻击成功率(ASRs)。我们还评估了 QueryAttack 对抗常见防御措施的表现,证实了使用一般防御技术难以削弱 QueryAttack 的效果。为了抵御 QueryAttack,我们专门设计了一种防御方法,在 GPT-4-1106 上可以将攻击成功率降低高达 64%。QueryAttack 的代码可以在 https://anonymous.4open.science/r/QueryAttack-334B 找到。
发布时间: 2/17/2025
查看原文
作者: Yu Leng, Yingnan He, Colin Magdamo, Ana-Maria Vranceanu, Christine S. Ritchie, Shibani S. Mukerji, Lidia M. V. R. Moura, John R. Dickson, Deborah Blacker, Sudeshna Das
arXiv:2502.09715v1 公告类型: cross 摘要:在电子健康记录(EHRs)中识别认知障碍对于及时诊断和促进研究都至关重要。关于认知障碍的信息通常存在于EHRs中的非结构化医生笔记中,但手动图表审查既耗时又容易出错。为了解决这一问题,我们的研究评估了使用零样本GPT-4o的自动化方法,以确定认知障碍的不同阶段。首先,我们评估了GPT-4o在确定来自麻省理工学院波士顿总医院(MGH)记忆诊所769名患者的专业医生笔记的全球临床痴呆评定(CDR)方面的能力,并获得了加权κ值为0.83。其次,我们评估了GPT-4o在3年周期内区分为正常认知、轻度认知障碍(MCI)和痴呆的所有860名医保患者的笔记方面的能力。与专业医生笔记审查相比,GPT-4o获得了加权κ值为0.91,在临床评判者评定为高度自信病例中,GPT-4o获得了0.96的加权κ值。我们的研究结果表明,GPT-4o在未来作为可扩展的图表审查工具,用于创建研究数据集和在临床环境中辅助诊断具有潜在的应用价值。
发布时间: 2/17/2025
查看原文
作者: Maurits Bleeker, Matthias Dorfer, Tobias Kronlachner, Reinhard Sonnleitner, Benedikt Alkin, Johannes Brandstetter
arXiv:2502.09692v1 类型: cross 摘要: 近期在神经算子学习方面的进展为汽车气动学等领域的革命性创新铺平了道路。然而,在基于神经网络的仿真代理能够实现产业化之前,必须克服一些关键挑战。首先,这些代理必须具备处理大型表面和体积网格的能力,特别是仅使用原始几何输入(而非依赖仿真网格)的情况下。其次,这些代理必须能够在有限的高保真数值仿真样本数量下进行训练,同时仍然达到所需的表现水平。为此,我们提出了几何保真通用物理变换器(GP-UPT),该模型将几何编码和物理预测分离,确保在几何表示和表面采样策略方面具有灵活性。GP-UPT使得模型的相应部分可以根据实际需求独立扩展,提供了解决开放挑战的可扩展解决方案。GP-UPT规避了高质量模拟网格的创建,能够在2000万网格单元上准确预测三维速度场,并在从低保真度到高保真度仿真数据集的迁移学习方面表现出色,所需的数据量不到一半即可达到从头训练的模型相同的性能。
发布时间: 2/17/2025
查看原文
arXiv:2502.09690v1 交叉公告类型 摘要:多用途的大语言模型(LLMs),是生成型人工智能(AI)的一个子集,最近取得了显著进展。尽管人们对LLMs协助系统工程(SE)任务的期望非常高;但由于系统本身的跨学科和复杂性,以及需要综合深厚的专业领域知识和运行环境,对LLMs生成SE成果的有效性提出了疑问,尤其是它们是通过广泛互联网数据进行训练的。为此,我们呈现了一项基于实证探索的结果,一个由人类专家生成的SE成果被作为基准,进行解析,并通过提示工程技术将之输入到各种LLMs中,以生成典型的SE成果片段。这一过程在没有任何微调或校准的情况下应用于记录基准LLM的表现。然后,我们采用两步混合方法来比较AI生成的成果与基准。首先,我们使用自然语言处理算法定量比较这些成果,发现当精心提示时,最先进的算法无法区分AI生成的成果与人类专家基准。其次,我们进行深入定性研究,以探讨它们在质量上的差异。我们记录下来,虽然两者看起来非常相似,但AI生成的成果表现出严重的难以检测的失败模式,我们将这些特征描述为:提前的需求定义、缺乏依据的数值估算以及过度规定倾向。我们认为,这项研究表明,在多用途LLMs生成的成果中采纳AI建议反馈时,SE社区必须更加谨慎,至少在目前阶段是如此。
发布时间: 2/17/2025
查看原文
作者: Benjamin D. Killeen, Bohua Wan, Aditya V. Kulkarni, Nathan Drenkow, Michael Oberst, Paul H. Yi, Mathias Unberath
arXiv:2502.09688v1 宣布类型:交叉 摘要:人工智能(AI)有望通过数据驱动的洞察力推动医疗保健的变革,实现个性化和高效的护理。尽管放射学是AI采纳的前沿领域,但在实践中,AI模型的潜力往往因严重的泛化失败而受到限制:当AI模型从受控测试环境过渡到放射科医生的实际临床应用时,其性能可能会下降高达20%。这种不匹配引发了担忧,即放射科医生在实际操作中可能会被错误的AI预测误导,或者对AI产生不信任,从而使这些有前景的技术变为实际上无效。因此,对AI模型进行全面的临床试验至关重要,以预测在遇到各种数据样本时模型性能的下降。然而,实现这一目标颇具挑战性,因为收集多样化的数据样本和相应的标注需要高昂的成本。为克服这些限制,我们提出了一种新颖的条件生成AI模型,专门用于放射学AI的虚拟临床试验(VCTs),能够真实地合成具有指定属性的患者的全身CT图像。通过学习图像和解剖结构的联合分布,我们的模型能够在前所未有的规模上精确复现现实世界患者群体的详细情况。我们通过由我们的合成CT研究人群驱动的VCTs,展示了放射学AI模型的有意义评估,揭示了模型性能的下降,并促进了对由偏见引起的数据属性的算法审计。我们利用生成AI方法进行VCTs是朝着可扩展解决方案前进的一个有前景的途径,以评估模型的稳健性、减轻偏见、并保护患者的护理,通过简化在任何所需的多样化患者群体范围内测试和评估AI模型。
发布时间: 2/17/2025
查看原文
作者: Wiktoria Mieleszczenko-Kowszewicz, Beata Bajcar, Jolanta Babiak, Berenika Dyczek, Jakub \'Swistak, Przemys{\l}aw Biecek
arXiv:2502.09687v1 类型: cross 摘要:小心你所祈求的,你可能会得到它。这句话适用于大型语言模型(LLMs)的训练方式,这些模型越来越多地被奖励以取悦接收者,而不是仅仅因为正确。因此,它们越来越擅长说服我们他们的答案是有价值的。但它们在说服过程中使用了哪些技巧呢?在本研究中,我们研究了十二种不同语言模型的回答中所使用的心理语言学特征。通过根据理性和情感提示对回答内容进行分组,并探索LLMs所采用的社会影响原则,我们探讨了我们能否以及如何通过减轻LLM驱动的大规模错误信息的风险。我们将本研究置于更广泛的以人为本的人工智能讨论框架内,强调需要跨学科的方法来减轻具有说服力的人工智能回答所带来的认知和社交风险。
发布时间: 2/17/2025
查看原文
作者: Albina Klepach, Alexander Nikulin, Ilya Zisman, Denis Tarasov, Alexander Derevyagin, Andrei Polubarov, Nikita Lyubaykin, Vladislav Kurenkov
arXiv:2502.09680v1 动作类型:交叉 摘要:利用大量互联网视频数据进行具身人工智能目前受到缺乏动作注释以及存在相关干扰动作的瓶颈。我们提出了一种基于VideoSaur和LAPO的新型对象中心潜在动作学习方法,该方法通过自我监督将场景分解为对象表示,并使用代理动作标签标注视频数据。该方法有效地将因果因素对象交互与无关背景噪声分离,减少了由于干扰动作导致的潜在动作学习方法性能下降。我们的初步实验显示,基于对象分解的潜在动作预训练可以将通过一小部分标注动作进行下游微调推断出的潜在动作质量提高2.7倍,并且平均提高2.6倍的回报效率。
发布时间: 2/17/2025
查看原文
作者: Yubo Gao, Haotian Wu, Lei Zhang
arXiv:2502.09675v1 宣传类型: cross 摘要: 多模态情感分析(MSA)旨在通过利用文本、声学和视觉模态来识别人类情感,因此如何充分利用不同模态之间的交互是MSA的核心挑战。交互包含对齐和冲突方面。当前的研究主要强调对齐以及单模态之间的固有差异,忽略了两模态组合之间也可能存在潜在的冲突。此外,基于多任务学习的冲突建模方法往往依赖于不稳定的生成标签。为了解决这些挑战,我们提出了一种新颖的多级冲突感知网络(MCAN),该网络逐步将对齐和冲突成分从单模态和两模态表示中分离出来,并进一步利用冲突建模分支中的冲突成分。在冲突建模分支中,我们在表示和预测输出两个层面上进行差异性约束,避免依赖于生成的标签。在CMU-MOSI和CMU-MOSEI数据集上的实验结果证明了所提出的MCAN的有效性。
发布时间: 2/17/2025
查看原文
作者: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia
arXiv:2502.09674v1 安全类型:跨域 摘要:大型语言模型的安全对齐行为,如拒绝有害查询,可以通过激活空间中的线性方向来表示。以前的研究使用单一方向来建模安全性行为,这限制了对其机制性理解的单一安全特性。在这项工作中,我们发现安全性对齐行为是由多维方向共同控制的。具体来说,我们研究了在 Llama 3 8B 上通过对付逃逸进行安全微调时表示变化的向量空间。通过研究空间中的正交方向,我们首先发现一个主导方向控制了模型的拒绝行为,而多个较小的方向则代表了不同的可解释特征,如假设性叙事和角色扮演。然后我们测量了不同方向促进或抑制主导方向的程度,展示了辅助方向在塑造模型拒绝表示方面的重要作用。最后,我们展示了在有害查询中删除某些触发词可以减轻这些方向以绕过学习到的安全能力,从而从多维视角提供了对安全性对齐脆弱性的新认识。相关代码和资源可在 https://github.com/BMPixel/safety-residual-space 获取。
发布时间: 2/17/2025
查看原文
作者: Ang Li, Yichuan Mo, Mingjie Li, Yifei Wang, Yisen Wang
arXiv:2502.09673v1 宣告类型: cross 摘要: 大型语言模型(LLMs)在各种自然语言处理(NLP)基准测试中取得了显著的成功。然而,在需要细致推理和精确决策的复杂任务中,仅仅是语言能力的提高是不够的——LLMs 必须进行推理,即逻辑思考、借鉴过去的经历,并综合信息以得出结论并采取行动。为了提高推理能力,已经广泛探索了诸如提示和微调等方法。尽管这些方法在推理方面带来了明显的改善,但它们对LLM安全性的影响仍然不太为人所了解。在这项工作中,我们研究了推理与安全性在LLMs中的相互作用。我们强调推理能力提升导致的隐含安全性风险,揭示了一些之前未被注意到的脆弱性。同时,我们探索了如何利用推理本身来增强安全性,发现了潜在的缓解策略。通过对由推理驱动的LLM安全性方面的风险和机遇的分析,我们的研究为开发在实际部署中不仅更具能力而且更具信赖性的模型提供了宝贵的见解。
发布时间: 2/17/2025
查看原文