arXiv 论文列表

作者: Jianke Zhang, Yanjiang Guo, Yucheng Hu, Xiaoyu Chen, Xiang Zhu, Jianyu Chen

arXiv:2501.18867v2 通告类型: 交叉摘要: 最近在视觉-语言-行动(VLA)模型领域的进展利用了预训练的视觉-语言模型(VLMs)来提高泛化能力。VLMs通常是在视觉-语言理解任务上预先训练的，提供了丰富的语义知识和推理能力。然而，先前的研究表明，VLMs经常侧重于高层语义内容，而忽视低级特征，限制了它们捕捉详细空间信息和理解物理动态的能力。这些对于体现控制任务至关重要的方面，在现有的预训练范式中尚未得到充分探索。在本文中，我们研究了VLA的训练范式，并引入了**UP-VLA**，这是一种**统一**的VLA模型训练方法，结合了多模态**理解**和未来**预测**目标，同时增强了高层语义理解和低级空间理解。实验结果表明，UP-VLA在Calvin ABC-D基准上相较于之前的最佳方法实现了33%的改进。此外，UP-VLA在实际的操控任务中表现出了更高的成功率，特别是那些需要精确空间信息的任务。

发布时间: 2/3/2025

查看原文

冰山一角：揭示LLMs中隐藏的基于提示的任务 adversarial 攻击类别

作者: Sergey Berezin, Reza Farahbakhsh, Noel Crespi

arXiv:2501.18626v2 通告类型: 跨域摘要: 我们提出了一种针对大规模语言模型 (LLM) 的新颖类别 Jailbreak 对抗攻击，称为 Task-in-Prompt (TIP) 攻击。我们的方法将在序列到序列任务（例如，密码解码、谜语、代码执行）嵌入到模型的提示中，以间接生成禁止输入。为了系统地评估这些攻击的有效性，我们引入了 PHRYGE 基准。我们证明，我们的技术成功地绕过了六种最先进的语言模型（包括 GPT-4o 和 LLaMA 3.2）的安全防护措施。我们的研究结果突显了当前 LLM 安全对齐中的关键弱点，并强调了需要更多复杂的防御策略的迫切性。警告：本文包含仅供研究目的使用的不道德询问示例。

发布时间: 2/3/2025

查看原文

深度优化SAT求解器以优化IC3算法

作者: Yuheng Su, Qiusong Yang, Yiwei Ci, Yingcheng Li, Tianjun Bu, Ziyu Huang

arXiv:2501.18612v2 Announce Type: cross 摘要：IC3算法，也被称为PDR（Procedure Directed Reasoning），是一种基于SAT求解器的模型检查算法，由于其高效性、可扩展性和完整性，在近年来对领域产生了显著影响。该算法利用SAT求解器解决一系列与相对归纳相关的SAT查询。在这篇论文中，我们基于对我们观察到的这些SAT查询的独特特征进行了一些建立在IC3上的SAT求解器优化。通过观察到SAT查询不一定需要对所有变量进行决策，我们在每次求解过程前计算需要决策的变量子集，同时确保结果不受影响。此外，注意到VSIDS中的二叉堆操作开销不小，我们用桶取代二叉堆，以实现常数时间操作。进一步地，我们支持临时子句而无需为每次求解过程分配新的激活变量，从而消除了重置求解器的需求。我们开发了一种新的轻量级CDCL SAT求解器GipSAT，集成了这些优化。全面的评估突显了GipSAT所取得的性能提升。具体来说，基于GipSAT的IC3在求解时间上比基于MiniSat实现的IC3平均速度快了3.61倍。

发布时间: 2/3/2025

查看原文

基于神经网络的双层优先级分配加速配置性能错误测试

作者: Youpeng Ma, Tao Chen, Ke Li

arXiv:2501.15392v2 类别: cross 摘要：随着软件系统变得越来越复杂和可配置，更多的性能问题往往会源自配置设计。这导致一些配置选项意外地降低了性能，偏离了开发者最初的预期。这种差异，即配置性能 bug (CPBugs)，极其破坏性，并且可能在源代码中深藏不露。然而，高效地测试 CPBugs 是困难的，不仅是因为测试 oracle 难以设定，而且还因为配置测量成本高昂，且要测试的配置组合也太多。因此，现有的测试工具要么运行时间过长，要么在预算有限的情况下无法有效检测 CPBugs，而且测试 oracle 还不够准确。在本文中，我们通过神经网络优先考虑在配置选项和值范围层面进行测试，结合自动 oracle 估计，旨在实现显著更快的 CPBugs 测试。我们提出的工具称为 NDP，是一个通用框架，可以与不同的启发式生成器一起工作。其想法是利用两个神经语言模型：一个用于估计 CPBugs 类型，作为 oracle，更重要的是，另一个可以根据选项是否与 CPBugs 有关推断出概率，基于这些信息，可以优先级排序待搜索的选项和值范围。在多个不同版本的广泛使用的系统上的实验表明，NDP 在一般情况下可以更好地预测 CPBugs 类型，达到 87% 的情况下，并且与最先进的工具相比，在测试效率上提高了 88.88 倍，能够发现更多的 CPBugs。

发布时间: 2/3/2025

查看原文

SETS：利用自我验证和自我修正以提高测试时缩放性能

作者: Jiefeng Chen, Jie Ren, Xinyun Chen, Chengrun Yang, Ruoxi Sun, Sercan \"O Ar{\i}k

arXiv:2501.19306v2 通知类型: 新增摘要: 近期大型语言模型（LLMs）的发展为利用测试时计算来增强复杂推理任务的表现创造了新的机会。然而，传统方法如重复采样并采用多数投票或奖励模型评分，在测试时计算量增加时往往会遇到回报递减的问题，并且还需要进行昂贵的任务特定奖励模型训练。在本文中，我们提出了自我增强测试时扩展（SETS），这是一种新颖的方法，利用了近期先进LLMs的自我验证和自我纠正能力以克服这些问题。SETS将采样、自我验证和自我纠正整合进一个统一的框架，能够实现高效的可扩展测试时计算，从而在复杂任务中提高能力。通过在具有挑战性的规划和推理基准上的广泛实验，与替代方案相比，我们证明了SETS在性能上取得了显著改进，并且具有更优越的测试时扩展规律。

发布时间: 2/3/2025

查看原文

SHARPIE：强化学习与人机交互实验的模块化框架

作者: H\"useyin Ayd{\i}n, Kevin Godin-Dubois, Libio Goncalvez Braz, Floris den Hengst, Kim Baraka, Mustafa Mert \c{C}elikok, Andreas Sauter, Shihan Wang, Frans A. Oliehoek

arXiv:2501.19245v2 公告类型: 新摘要: 强化学习(RL)提供了一种通用的方法来建模和训练AI代理，包括人与AI交互的场景。在本文中，我们提出了SHARPIE（共享的人与AI强化学习平台，用于交互实验）以满足在RL代理和人类之间进行实验所需的一种通用框架。其模块化设计包括灵活的RL环境包装器和算法库、面向参与者的服务端Web界面、日志工具、以及在流行的云平台和参与者招募平台上的部署。该平台使研究人员能够研究人类与RL代理人之间交互的各种研究问题，包括交互奖励指定和学习、从人类反馈学习、动作委托、偏好获取、用户建模以及人与AI协同工作等。该平台基于一种通用的人与RL交互接口，旨在在人类情境下的RL研究领域进行标准化。

发布时间: 2/3/2025

查看原文

o3-mini vs DeepSeek-R1：哪个更安全？

作者: Aitor Arrieta, Miriam Ugarte, Pablo Valle, Jos\'e Antonio Parejo, Sergio Segura

arXiv:2501.18438v2 宣传类型: 替换交叉摘要：DeepSeek-R1 的出现标志着人工智能行业乃至大型语言模型领域的转折点。其能力在多个任务中表现出色，包括创造性思维、代码生成、数学和自动化程序修复，且执行成本似乎较低。然而，大型语言模型必须遵守一个重要的定性属性，即其与安全性和人类价值观的对齐。DeepSeek-R1 的主要竞争对手是其美国竞争对手 OpenAI 的 o3-mini 模型，该模型预计在性能、安全性和成本方面设定高标准。在本技术报告中，我们系统地评估了 DeepSeek-R1（70b 版本）和 OpenAI 的 o3-mini（测试版）的安全级别。为此，我们利用了我们最近发布的自动化安全性测试工具 ASTRAL。通过利用该工具，我们自动且系统地为两个模型生成并执行了 1,260 个测试输入。在对两个 LLM 提供的结果进行半自动化评估后，结果显示 DeepSeek-R1 产生的不安全响应显著多于 OpenAI 的 o3-mini（分别为 12% 和 1.2%）。

发布时间: 2/3/2025

查看原文

SAeUron：带有稀疏自编码器的可解释概念遗忘在扩散模型中的方法

作者: Bartosz Cywi\'nski, Kamil Deja

arXiv:2501.18052v2 公告类型: replace-cross 摘要：尽管扩散模型非常强大，但它们可能会意外生成有害或不希望的内容，这引发了重大的伦理和安全问题。最近的机器卸载方法提供了潜在的解决方案，但往往缺乏透明度，使得难以理解它们对基础模型所做的改变。为了应对这一挑战，我们在本文中引入了SAeUron，这是一种新颖的方法，利用稀疏自编码器（SAEs）学习到的特性来移除文本生成图像扩散模型中的不希望的概念。首先，我们证明了在扩散模型去噪过程的多个时间步的激活上以无监督方式训练的SAEs能够捕获与特定概念相对应的稀疏和可解释的特征。在此基础上，我们提出了一种特征选择方法，该方法能够对模型激活进行精确干预，从而阻止特定内容的生成同时保持整体性能。通过使用竞争性的UnlearnCanvas基准在对象和风格卸载上的评估表明，SAeUron具有最先进的性能。此外，我们展示了使用单个SAE可以同时移除多个概念，并且与其它方法不同，SAeUron能够减轻在对抗性攻击下生成不希望内容的可能性。相关代码和检查点可在以下链接获取：https://github.com/cywinski/SAeUron。

发布时间: 2/3/2025

查看原文

anatomy 可以搞定一切：预测手术中该做什么

作者: Gary Sarwin, Alessandro Carretta, Victor Staartjes, Matteo Zoli, Diego Mazzatenta, Luca Regli, Carlo Serra, Ender Konukoglu

arXiv:2501.18011v2 宣告类型: replace-cross 摘要：手术指导可以以多种方式提供。在神经外科中，空间定位和方向主要通过参考术前MRI扫描的神经导航系统来实现。最近，在通过分析诸如内窥镜等工具的视频馈送提供实时指导方面，人们的兴趣日益浓厚。现有的方法，包括解剖结构检测、方向反馈、相位识别和视觉问答，主要侧重于协助外科医生评估当前的手术场景。本项工作旨在提供更精细的指导，旨在通过预测手术器械的轨迹来提供指导，基本上是回答了下一步做什么的问题。为了解决这一任务，我们提出了一种模型，该模型不仅利用了手术器械的历史位置，还整合了解剖特征。重要的是，我们的工作并不依赖于手术器械轨迹的明确真实标签。相反，真实标签是由一个检测模型生成的，该模型用于在包含垂体手术视频的全面数据集中检测解剖结构和手术器械。通过分析这些视频中解剖结构和器械运动的互动并预测未来器械运动，我们展示了解剖特征在解决这一具有挑战性任务方面的价值。据我们所知，这是首次尝试解决手动操作手术中的此类任务。

发布时间: 2/3/2025

查看原文

来自音频和视频源的体育 Highlights 自动检测

作者: Francesco Della Santa, Morgana Lalli

arXiv:2501.16100v2 宣告类型: 替换-交叉摘要：本文提出了一种基于深度学习且轻量级的方法，用于从音视频源自动检测体育精彩片段（HLs）。体育视频分析中的精彩片段检测是一项传统上需要大量人工干预的关键任务。我们的解决方案利用了在相对较小的音频梅尔频谱图和灰度视频帧数据集上训练的深度学习（DL）模型，分别在音视频检测中达到了89%和83%的有前途的准确率。结合使用小型数据集和简单架构，显示出我们的方法在快速且低成本部署方面的实用性。此外，结合两种模态的集成模型提高了对假阳性及假阴性的鲁棒性。 proposed 方法论提供了一种针对各种体育视频内容的可扩展解决方案，用于自动化精彩片段检测，从而减少了人工干预的需要。未来的工作将集中在改进模型架构，并将此方法扩展到媒体分析中的更广泛的场景检测任务上。

发布时间: 2/3/2025

查看原文