arXiv:2504.21848v1 Announce Type: 剪裁
摘要:为了为AI代理创建有效的治理机制,需要更深入地理解它们的核心属性及其与代理部署和操作相关的问题之间的关系。本文提供了一种以四个维度为重点的AI代理特征描述:自主性、有效性、目标复杂性以及普适性。我们为每个维度提出了不同的程度划分,并认为每个维度都提出了关于这些系统的设计、运行和治理的独特问题。此外,我们利用这一框架构建了不同类型的AI代理的“代理画像”。这些画像有助于揭示不同类别AI代理所提出的横跨技术与非技术治理挑战,范围从狭义的任务特定助手到高度自主的一般性系统。通过标绘关键变化轴和连续性,这一框架为开发者、政策制定者和公众提供了机会,使其能够制定更符合集体社会目标的治理方法。
arXiv:2504.21846v1 Announce Type: cross
摘要:具有高影响力的语音视频是篡改的首选目标,因为它们易于访问且影响力大。本文提出了一种 Spotlight 系统,该系统通过在事件现场创建动态物理签名并以不可感知的调制光将它们嵌入到所有视频记录中,提供了一种低开销且不显眼的方法来保护实时语音视频免受讲话者身份和唇部及面部动作的视觉篡改。与在数字域中工作的大多数篡改检测方法不同,Spotlight 在事件现场创建动态物理签名,并将这些签名嵌入到所有视频录制中,以不可感知的调制光方式实现。这些物理签名编码了有关语音事件的独特语义特征,包括讲话者的身份和面部动作,并通过加密方式确保不易受到欺诈性篡改。可以从任何下游视频中提取这些签名,并与所展示的语音内容进行验证以检查其完整性。Spotlight 的关键要素包括(1)基于局部敏感哈希生成极其紧凑(即150位)且姿态不变的语音视频特征的框架;以及(2)一种光学调制方案,该方案能够将超过200 bps的数据嵌入到视频中,且不会在视频中或实时中引起注意。在广泛的视频数据集上的原型实验表明,Spotlight 的 AUC 值 ≥0.99,并在检测篡改视频方面实现了整体真实阳性率100%。此外,Spotlight 对记录条件、视频后期处理技术以及对其视频特征提取方法的白盒 adversarial 攻击具有高度鲁棒性。
arXiv:2504.21831v1 交叉公告类型
摘要:我们引入了DEEVISum(Distilled Early Exit Vision Language Model for Summarization),这是一种为分段视频摘要设计的轻量级、高效且可扩展的跨模态语言模型。DEEVISum 利用结合了文本和音频衍生信号的多模态提示,结合多阶段知识蒸馏(MSKD)和早期退出(EE),在性能和效率之间取得平衡。MSKD在基线蒸馏上的绝对F1分数改进为1.33%(0.5%),而EE将推理时间减少了大约21%,F1分数下降1.3点。在TVSum数据集上进行评估,我们的最佳模型PaLI Gemma2 3B + MSKD的F1分数为61.1,与显著更大的模型相比,其性能相当,同时保持较低的计算开销。我们公开发布了我们的代码和处理后的数据集,以支持进一步的研究。
arXiv:2504.21801v1 类型:跨领域
摘要:我们介绍了DeepSeek-Prover-V2,这是一种面向Lean 4的形式定理证明的开源大型语言模型,其初始化数据是通过基于DeepSeek-V3的递归定理证明管线收集的。冷启动训练过程首先通过提示DeepSeek-V3将复杂问题分解为一系列子目标。已解决子目标的证明被合成成为一个思维过程链,并结合DeepSeek-V3的逐步推理,创建一个强化学习的初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。最终模型DeepSeek-Prover-V2-671B在神经定理证明方面达到了最先进的性能,在MiniF2F-test中达到了88.9%的通过率,并解决了PutnamBench中的49个问题中的658个问题。除了标准基准测试,我们还引入了ProverBench,这是一个包含325个形式化问题的集合,以丰富我们的评估,其中包括最近AIME竞赛(第24年至第25年)中选出的15个问题。进一步对这15个AIME问题的评估表明,模型成功解决了其中6个问题。相比之下,DeepSeek-V3通过多数投票解决了其中8个问题,这突显了大型语言模型中形式化和非形式化数学推理之间的差距正在显著缩小。
arXiv:2504.21800v1 标题类型: cross
摘要:合成数据在医疗保健领域的广泛应用受到隐私担忧、对真实世界数据访问受限以及标注成本高昂的驱动。本文探讨了使用合成延长暴露(PE)治疗性对话治疗创伤后应激障碍(PTSD)作为训练和评估临床模型的可扩展替代方案。我们系统地比较了真实和合成对话,利用语言学、结构和协议特定的度量标准进行了比较,包括轮流模式和治疗 fidelity。我们还引入并评估了基于语言分析和语义建模的PE特定度量标准,提供了一个超越表面流畅性的临床 fidelity评估框架。我们的研究发现,尽管合成数据有潜力缓解数据稀缺问题并保护患者隐私,但它在捕捉治疗互动的细微动态方面存在困难。在我们的数据集中,合成对话在结构特征上与真实对话相匹配(例如,讲话人轮换比例:0.98 vs. 0.99),但合成互动未能充分反映关键 fidelity指标(例如,压力监测)。我们指出了现有评估框架的不足之处,并倡导一种超越表面流畅性的 fidelity 意识度量标准,以揭示临床上重要的失败。我们的研究结果阐明了合成数据在哪些方面可以有效补充真实世界数据集——以及哪些关键限制仍然存在。
arXiv:2504.21798v1 类别: cross
摘要: 尽管最近在软件工程领域的语言模型(LMs)方面取得了进展,但收集训练数据仍然是一个显著的痛点。现有数据集规模较小,最多包含11个或更少的GitHub仓库中的数千个训练实例。构建此类数据集的过程通常非常复杂,需要数百小时的人工劳动;伴随的执行环境还会占用数TB的存储空间,严重影响了它们的可扩展性和易用性。为了解决这一痛点,我们引入了SWE-smith,这是一种生成大规模软件工程技术数据的新方法。给定任何Python代码库,SWE-smith 构建相应的执行环境,然后自动合成数百到数千个任务实例,这些实例会破坏代码库中的现有测试。使用SWE-smith,我们从128个GitHub仓库中创建了一个包含50,000个实例的数据集,比之前的所有工作都要大一个数量级。我们训练了SWE-agent-LM-32B,其在SWE-bench 验证基准测试上的Pass@1解决率为40.2%,是开源模型中的最好成绩。我们开源了SWE-smith(数据集收集方法、任务实例、轨迹、模型),以降低在自动化软件工程领域的语言模型系统研究的门槛。所有资产可在https://swesmith.com获取。
arXiv:2504.21776v1 文章类型: cross
摘要: 大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,展示了令人印象深刻的长期推理能力。然而,它们对静态内部知识的依赖限制了其在复杂、知识密集型任务上的表现,并阻碍了其生成需要综合多种网络信息的全面研究报告的能力。为了解决这一问题,我们提出了一种名为**WebThinker**的深度研究代理,使LRMs能够自主地在网络上搜索信息、导航网页并在推理过程中撰写研究报告。WebThinker集成了一个**深度网络探索器**模块,使LRMs能够在遇到知识缺口时动态地搜索、导航和提取网络信息。此外,它采用了**自主思考-搜索-撰写策略**,使模型能够无缝地在推理、信息收集和报告撰写之间进行实时交互。为了进一步提高研究工具的利用率,我们通过迭代在线直接偏好优化(DPO)提出了一种基于强化学习(RL)的培训策略。在复杂推理基准测试(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的广泛实验表明,WebThinker显著优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂场景下的可靠性与适用性,为更强大且多功能的深度研究系统铺平了道路。代码可在https://github.com/RUC-NLPIR/WebThinker获得。
arXiv:2504.21775v1 类型: cross
摘要: 最近的方法利用超网络来处理联邦学习中的性能-公平性权衡。超网络将客户端之间对模型性能和公平性的偏好映射到权衡曲线上特定偏好的模型,这个权衡曲线称为局部帕累托前沿。然而,现有的方法通常采用统一的偏好采样分布来在客户端上训练超网络,忽视了他们局部帕累托前沿中存在的固有异质性。同时,从泛化角度来看,它们不考虑全局数据集上局部和全局帕累托前沿之间的差距。为了解决这些限制,我们提出了HetPFL,以有效地学习局部和全局帕累托前沿。HetPFL 包括偏好采样适应(PSA)和感知偏好超网络融合(PHF)。PSA 适应性地为每个客户端确定最优的偏好采样分布,以适应异质性的局部帕累托前沿。而 PHF 在确保全局帕累托前沿性能的前提下,进行感知偏好的客户端超网络融合。我们证明,在比现有方法更弱的假设下,HetPFL 在轮数方面收敛。广泛的实验在四个数据集上表明,HetPFL 在学习局部和全局帕累托前沿的质量方面显著优于七个基线方法。
arXiv:2504.21773v1 类型: cross
摘要:随着大规模语言模型(LLMs)的广泛应用,生成不存在的事实,即幻觉问题,引起了越来越多的关注。增强LLM置信度估计的先前研究主要集中在单一问题设置上。然而,在更具有挑战性的多问题设置中,即同时准确回答多个问题,LLM对其内部参数化知识边界的意识研究仍然不足。为了弥合这一差距,我们提出了一种新颖的方法——多答案和置信逐步调整(MAC-Tuning),该方法在指令数据微调期间将答案预测的学习与置信度估计的学习进行分离。广泛的实验表明,我们的方法在平均精度方面比基线方法高出最多25%。
arXiv:2504.21772v1 类型: cross
摘要:类似 YouTube Shorts 和 TikTok 这样的短视频平台面临着显著的版权合规挑战,侵犯者经常嵌入随意的背景音乐(BGM),以掩盖原始声轨(OST)并逃避内容原创性检测。为了解决这一问题,我们提出了一种新颖的管道,将音乐源分离(MSS)和跨模态视频音乐检索(CMVMR)集成起来。我们的方法有效分离了随意的BGM与原始OST,使得恢复真实的视频音频轨道成为可能。为了支持这项工作,我们引入了两个领域专用的数据集:OASD-20K 用于音频分离和 OSVAR-160 用于管道评估。OASD-20K 包含 20,000 个包含混合 BGM 和 OST 的音频片段,而 OSVAR-160 是一个独特的基准数据集,包含 1,121 个带有混合音频的视频对,专门为短视频恢复任务设计。实验结果表明,我们的管道不仅以高精度消除了随意的 BGM,还恢复了原始声轨,确保了内容的完整性。这种方法为解决短视频平台上用户生成内容的版权挑战提供了一个道德且可扩展的解决方案。