arXiv 论文列表

作者: Jiawei Guo, Haipeng Cai

arXiv:2505.06493v1 安全公告类型: cross 摘要：大型语言模型（LLMs）因其令人印象深刻的生成能力而在各种应用中得到了广泛应用。它们的即插即用特性使得开发者和最终用户可以通过简单的提示与这些模型进行交互。然而，随着LLMs在不同领域的各种系统中越来越集成，对其安全性的担忧也在增加。现有研究主要集中在来自用户提示（例如提示注入攻击）和模型输出（例如模型逆向攻击）的威胁，而系统提示的安全性则被很大程度上忽视。这项工作填补了这一关键缺口。我们介绍了系统提示中毒，这是一种针对LLMs的新攻击向量，与传统的用户提示注入不同，它会毒害系统提示，从而持续影响所有后续用户交互和模型响应。我们系统地研究了各种中毒场景下的四种实用攻击策略。通过在生成性和推理型LLMs上的演示，我们展示了在不使用破解技术的情况下，系统提示中毒是极其可行的，并且在一系列广泛的任务中（包括数学、编程、逻辑推理和自然语言处理）都具有有效性。重要的是，我们的发现表明，即使用户提示采用了高级提示技术（如思考链，CoT），这种攻击仍然有效。我们还展示了诸如CoT和检索增强生成（RAG）等技术，这些技术在广泛的任务中已被证明可有效改善LLM性能，但它们在系统提示中毒的影响下显著削弱了其有效性。

发布时间: 5/13/2025

查看原文

基于模型的视频增强离线强化学习

作者: Minting Pan, Yitao Zheng, Jiajian Li, Yunbo Wang, Xiaokang Yang

arXiv:2505.06482v1 类别: cross 摘要: 离线强化学习( Offline RL) 允许在静态数据集上进行策略优化，避免了真实世界探索的风险和成本。然而，它由于缺乏环境交互，在学习次优行为和准确的价值估计方面存在困难。本文中，我们提出了 Video-Enhanced Offline RL (VeoRL)，这是一种基于模型的方法，它从易于在线获取的多样化未标记视频数据中构建一个交互的世界模型。利用基于模型的行为指导，VeoRL 将源自自然视频的控制策略和物理动力学的常识知识转移至目标域中的 RL 代理。我们的方法在机器人操作、自动驾驶和开放世界视频游戏中实现了显著性能提升（在某些情况下超过 100%）。

发布时间: 5/13/2025

查看原文

使用误差界和解集合改善物理约束神经网络中的不确定性量化

作者: Pablo Flores, Olga Graf, Pavlos Protopapas, Karim Pichara

arXiv:2505.06459v1 宣告类型: cross 摘要: 物理知情神经网络（PINNs）已被广泛用于求解以微分方程形式建模的各种物理现象。由于 PINNs 没有自然的不确定性量化机制，一些工作致力于量化处理 PINNs 时出现的不同不确定性。在本文中，我们使用两步训练过程来训练提供 PINNs 所提供的微分方程系统的解的不确定性概率神经网络。我们利用对 PINNs 可用误差界来构建异方差方差，从而改进不确定性估计。此外，我们在宇宙学中利用获得的不确定性进行正向问题的求解和逆向问题的参数估计。

发布时间: 5/13/2025

查看原文

你在脸上的情绪：使用面部关键点检测在潜在空间编辑中保存情绪的应用

作者: Jingrui He, Andrew Stephen McGough

arXiv:2505.06436v1 类型: cross 摘要：生成对抗网络方法如StyleGAN/2提供了两项关键优势：生成照片级真实的面部图像的能力以及一个 semantically 结构化的潜在空间，这些图像正是从中生成的。通过识别预训练 StyleGAN/2 模型潜在空间中的语义有意义的方向（例如性别或年龄），已经出现了许多方法来编辑来自潜在空间中的向量派生的图像。通过在特定方向上移动向量，理想的结果是仅改变目标特征并保留所有其他特征。这对于手势研究提供了理想的数据增强方法，因为它可以用于生成大量图像变化同时保持面部表情不变。然而，特征纠缠问题仍然存在，即改变一个特征不可避免地会影响其他特征，这限制了保持面部表情的能力。为了解决这一问题，我们提出在面部关键点检测模型的损失函数中添加一个附加项，以限制面部表情的变化。在现有模型的基础上，将预训练面部关键点检测模型提供的提议的人脸 landmark 检测（HFLD）损失添加到原始损失函数中。我们对现有和扩展后的模型进行了定量和定性评估，展示了我们的方法在解决纠缠问题和保持面部表情方面的有效性。在我们的实验中，我们的方法实现了表情变化最多49%的减少。此外，我们通过与最先进的模型进行比较，展示了我们方法的优势。通过增强在面部变换期间保持面部手势和表情的能力，我们提出了一种方法，用于创建具有固定表情但不同外观的人脸图像，这使它成为面部手势和表情研究中的可靠数据增强方法。

发布时间: 5/13/2025

查看原文

人们想知道关于人工智能（AI）的什么问题？回答最终用户的问题以解释自主车辆（AV）的决策的重要性

作者: Somayeh Molaei, Lionel P. Robert, Nikola Banovic

arXiv:2505.06428v1 宣布类型：交叉摘要：通过增强最终用户对由人工智能（AI）驱动的自主车辆（AVs）所作出的决策的理解，可以提高AVs的利用率和接受程度。然而，当前的解释机制主要帮助AI研究人员和工程师在调试和监控其AI系统时使用，可能无法解决最终用户，如乘客，在各种场景中关于AVs的具体问题。在本文中，我们进行了两项用户研究，以调查潜在的AV乘客在乘坐AV时可能会提出的问题，并评估这些问题的答案如何提高他们对AI驱动的AV决策的理解。我们初步的形成性研究确定了一些建立性问题，这些问题现有的解释机制无法直接回答。我们的第二项研究证明，互动的基于文本的解释相比仅仅观察AV决策，更有效地提高了参与者对AV决策的理解。这些发现为设计能够激励最终用户参与并询问AI驱动的AV决策背后原因的交互方式提供了指导。

发布时间: 5/13/2025

查看原文

自然反射后门攻击：针对自动驾驶视觉语言模型的攻击

作者: Ming Liu, Siyuan Liang, Koushik Howlader, Liwen Wang, Dacheng Tao, Wensheng Zhang

arXiv:2505.06413v1 型别: 横跨领域摘要：视觉-语言模型（VLMs）已被整合到自动驾驶系统中，通过视觉问答（VQA）任务来增强推理能力。然而，这些系统对后门攻击的鲁棒性尚未受到充分探索。在本文中，我们提出了针对自动驾驶场景中VLM系统的自然反射后门攻击，旨在在特定视觉触发器存在时诱导显著的响应延迟。我们将在DriveLM数据集中的一部分图像中嵌入淡反射图案，这些图案模仿如玻璃或水等自然表面，并且在对应的文本标签前添加冗长的无关前缀（例如，伪造的故事或系统更新通知）。这种策略训练模型在遇到触发器时生成异常长的响应。我们使用参数高效的方法微调了两个最新的VLMs模型，Qwen2-VL和LLaMA-Adapter。实验结果表明，虽然模型在干净输入上保持正常的性能，但在触发时表现出显著的推理延迟，可能会导致现实世界中自动驾驶决策中的潜在危险延迟。进一步的分析探讨了中毒率、摄像头视角和跨视图可转移性等因素。我们的发现揭示了一类新的攻击，这些攻击利用了自动驾驶对实时性的严格要求，对增强VLM的驾驶系统安全性和可靠性构成严重挑战。

发布时间: 5/13/2025

查看原文

MAGE：一种基于稀疏观察的多阶段avatar生成器

作者: Fangyu Du, Yang Yang, Xuehao Gao, Hongye Hou

arXiv:2505.06411v1 类型: cross 摘要: 从仅捕捉头部和手腕的3关节观测值的头戴式设备中推断全身姿势是一项具有广泛AR/VR应用挑战性的任务。之前的努力集中在学习单一阶段的动作映射，从而导致了未观察到的肢体关节动作的过大的推断空间。这往往导致下肢预测不满意，并且时间一致性差，结果产生不现实或不连贯的动作序列。为了解决这个问题，我们提出了一种名为MAGE的强大多阶段avatar生成器，该生成器通过分阶段预测策略分解了这种直接单一阶段动作映射的学习。具体来说，给定初始3关节动作，MAGE逐步推断不同抽象粒度水平的多尺度肢体部位姿态，从6部分身体表示开始，逐步细化到22个关节。通过逐步降低抽象层次，MAGE从以前的预测阶段引入更多的动作上下文先验知识，从而通过更丰富的约束条件和更少的模糊性提高现实动作完成度。大规模数据集上的广泛实验验证了MAGE在精度和连贯性方面显著优于现有方法。

发布时间: 5/13/2025

查看原文

面向大型自主AI模型保证的工程风险意识、设计安全性框架

作者: Krti Tallam

arXiv:2505.06409v1 安全公告类型：跨领域摘要：随着AI模型参数规模达到数十亿，并且在不断增加的自主性下运行，确保其安全可靠的运行要求具备工程级的安全性和保证框架。本文提出了一个针对大规模自主AI系统的具有风险意识的设计安全方法，在开发生命周期的每个阶段都整合了标准化的威胁度量、对抗性加固技术和实时异常检测。我们详细描述了一个统一的工作流程 - 从设计时的风险评估和安全训练协议，到持续监控和自动审计日志记录 - 提供了在对抗性和运行压力下模型行为的可证明保证。在国家安全、开源模型治理和工业自动化方面的案例研究显示了可量化的漏洞和合规性负担减少。最后，我们主张跨行业的合作 - 将工程团队、标准机构和监管机构团结起来，在具有韧性的端到端保证生态系统中实施这些技术保障，为下一代AI提供担保。

发布时间: 5/13/2025

查看原文

使用语言模型进行场景理解的边缘端摄像头控制

作者: Alexiy Buynitsky, Sina Ehsani, Bhanu Pallakonda, Pragyana Mishra

arXiv:2505.06402v1 声明类型: cross 摘要: 在本文中，我们提出了优化提示统一系统 (OPUS)，这是一种框架，利用大型语言模型 (LLM) 控制全景平移缩放 (PTZ) 摄像头，提供对自然环境的上下文理解。为了实现这一目标，OPUS 系统通过从高级摄像头控制 API 中生成关键词，并通过在合成数据上进行监督微调 (SFT) 来将大型封闭源语言模型的知识转移到较小的模型上，从而提高成本效益。这使得在边缘部署时保持与类似 GPT-4 的大型模型相当的性能。OPUS 通过将多个摄像头的数据转换为文本描述供语言模型使用，增强了环境感知，从而消除了对专用感觉标记的需求。在基准测试中，我们的方法显著优于传统语言模型技术和更复杂的提示方法，相比高级技术实现了 35% 的性能提升，并且与 Gemini Pro 等封闭源模型相比，任务准确性高出 20%。该系统证明了 OPUS 通过直观的自然语言接口简化 PTZ 摄像头操作的能力。这种方法消除了显式编程的需要，并提供了一种与摄像头系统交互的对话方式，代表了用户如何控制和利用 PTZ 摄像机技术的重大进步。

发布时间: 5/13/2025

查看原文

面向AI驱动的人机协同作业的自适应灵活的网络安全运营中心研究

作者: Massimiliano Albanese, Xinming Ou, Kevin Lybarger, Daniel Lende, Dmitry Goldgof

arXiv:2505.06394v1 宣告类型: cross 摘要：由于面对着海量警报、缺乏技术分析师以及工具整合不良的挑战，安全运营中心（SOC）在管理网络安全威胁方面面临着不断增加的困难。人机协作为增强SOC分析师的能力并减轻他们的认知负担提供了有希望的方法。为此，我们提出了一个由大型语言模型（LLMs）驱动的人机联合培训范式，以提升威胁情报、警报筛选和事件响应工作流程。我们提出了一种愿景，在这种愿景中，以大型语言模型为基础的AI代理通过从SOC运作中学习隐含知识，从而在人机联合培训过程中提高其在SOC任务上的表现。我们诚邀SOC与我们合作，进一步完善这一流程，并发现人机联合培训能显着提高SOC生产效率的可复制模式。

发布时间: 5/13/2025

查看原文