arXiv:2504.16902v2 宣布类型: 替换-交叉
摘要:随着代理AI系统从基本的工作流发展到复杂的多代理协作,Google的Agent2Agent (A2A) 协议等稳健的协议变得至关重要。为促进安全采用并确保这些复杂交互的可靠性,理解A2A的安全实现至关重要。本文通过提供以A2A协议为中心的全面安全分析来达成此目标。我们从其基本元素和运作机制出发,将其置于代理通信开发的框架中。利用专门为AI风险设计的MAESTRO框架,我们采用前瞻性的威胁建模来评估A2A部署中的潜在安全问题,重点关注代理卡管理、任务执行完整性和身份验证方法等方面。
基于这些见解,我们提出了实际可行的安全开发方法和架构最佳实践,旨在构建稳健有效的A2A系统。我们的分析还探讨了A2A与模型上下文协议(MCP)之间的协同作用如何进一步提高安全互操作性。本文为开发人员和架构师提供了所需的知识和实用指导,使他们能够自信地利用A2A协议构建 robust 和安全的下一代代理应用程序。
arXiv:2504.15941v2 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)在翻译任务中的应用越来越普遍,但在翻译包容性语言时往往表现不佳——例如包含单数“他们”代词的文本或反映公平语言规范的其他文本。由于这些挑战横跨计算和社会领域,因此迫切需要通过一个坚实的方法论来批判性地评估LLMs在处理包容性翻译方面的表现。
本文介绍了一个名为FairTranslate的新颖且完全由人类注释的数据集,旨在评估从英语翻译成法语的机器翻译系统中的双非二元性别偏见。FairTranslate包含2418个涉及职业的英法双语句子对,并标注了丰富的元数据,包括职业的刻板印象对齐、语法性别指标的模糊性以及实际性别标签(男性、女性或包容型)。
我们使用四种领先的LLM(Gemma2-2B、Mistral-7B、Llama3.1-8B、Llama3.3-70B)在不同提示程序下对该数据集进行了评估。我们的结果显示,LLM在性别代表方面的存在显著偏差,突显了在机器翻译中实现公平结果的持久挑战。这些发现强调了需要制定针对性策略和干预措施,以确保基于LLM的翻译系统中使用公平和包容的语言。
我们已将FairTranslate数据集在Hugging Face上公开,并在GitHub上披露了所有实验的代码。
arXiv:2504.15210v2 宣告类型:替换交叉
摘要:代码生成大型语言模型(LLMs)已成为现代软件开发中的关键技术工具,提升了工作效率并加速了开发进程。本文旨在探讨使用强化学习和直接偏好优化对代码生成LLMs进行微调,进一步提高其性能。为实现这一目标,我们借助符号执行技术增强奖励模型的训练数据,确保数据更加全面和客观。通过符号执行,我们创建了一个自定义数据集,更好地捕捉代码评估中的细微差异。我们的奖励模型在这一数据集上微调后,在评估生成代码的质量方面比基准模型CodeRL有了显著的改进。借助奖励模型反馈进行训练的代码生成LLMs在结果上与CodeRL基准相当。
arXiv:2504.14693v2 通知类型: 替换-交叉
摘要:近期在视频领域语言多模态模型(LMMs)方面取得的进展展示了其理解视频内容的潜力,然而多学科讲座的理解任务仍待探索。我们引入了Video-MMLU,这是一个大规模基准,旨在评估LMMs在理解多学科讲座方面的能力。我们评估了90多个开源和专有模型,参数范围从0.5B到40B。我们的结果突显了当前模型在应对这些讲座带来的认知挑战方面的局限性,尤其是在需要感知和推理的任务中。此外,我们还探讨了视觉令牌的数量和大规模语言模型如何影响性能,为多模态感知和推理在讲座理解中的相互作用提供了见解。
arXiv:2504.13612v2 宣告类型: 替换-交叉
摘要:生成扩散模型的实际性能取决于噪声调度函数的适当选择,这也可以等效地表示为时间重新参数化。在本文中,我们提出了一种时间调度器,该调度器根据熵而不是均匀的时间间隔来选择采样点,确保每个点对最终生成贡献相同的信息量。我们证明这种时间重新参数化不依赖于初始的时间选择。此外,我们提供了一个可计算的精确公式,使用训练损失估计训练模型的这种所谓的“熵时间”而不会产生显著的额外开销。在引入熵时间和借鉴最优化结果的基础上,我们引入了缩放熵时间。在使用高斯分布混合和ImageNet的实验中,我们展示了使用(缩放的)熵时间大大提高了训练模型的推理性能。特别是,我们发现通过缩放熵时间重新参数化,预训练的EDM2模型在使用FID和FD-DINO评分评估图像质量时,可以显著提高,而无需增加函数评估的数量,在少量计算次数的情况下表现出更大的改进。
arXiv:2504.10637v2 宣告类型: replace-cross
摘要:估计语言模型之间的Kullback--Leibler(KL)散度有许多应用,例如基于人类反馈的强化学习(RLHF)、可解释性和知识蒸馏。然而,计算任意两个语言模型之间的精确KL散度是不现实的。因此,从业者经常依赖于基于采样的估计器。虽然可以轻松构造一个简单的Monte Carlo(MC)估计器来提供语言模型之间KL散度的无偏估计,但这个估计器著名地具有高方差,甚至可能导致KL散度的负估计,这应为非负量。在本文中,我们介绍了一种拉奥-布莱克威尔化(Rao-Blackwellized)估计器,该估计器同样是无偏的,并且严格证明其方差小于或等于标准MC估计器的方差。在针对情感控制微调的实验研究中,我们展示了我们的估计器提供了更稳定的KL估计,并在实践中大大减少了方差。此外,我们推导出KL散度梯度的类似拉奥-布莱克威尔化估计器,这导致训练更为稳定,并且相对于使用梯度MC估计器训练的模型,更常出现在奖励与KL权衡的帕累托前沿上。
arXiv:2504.08837v2 通知类型: replace-cross
摘要: 最近,像GPT-o1和DeepSeek-R1这样的慢思考系统通过显式的反思在解决具有挑战性的问题方面展示了巨大的潜力。在各种数学和科学基准测试中,它们明显优于如GPT-4o这类最好的快速思考模型。然而,它们的多模态推理能力与快速思考模型相当。例如,GPT-o1在MathVista、MathVerse和MathVision等基准测试中的表现与快速思考模型相似。在这项研究中,我们旨在利用强化学习(不依赖于蒸馏)来增强视觉语言模型的慢思考能力,从而推动技术前沿。首先,我们使用一种名为Selective Sample Replay (SSR)的新技术改编了GRPO算法,以解决消失优势的问题。尽管这种方法产生了强大的性能,但由此产生的RL训练模型表现出有限的自我反思或自我验证。为了进一步鼓励慢思考,我们引入了Forced Rethinking,它在RL训练的展开末尾添加了一个重新思考触发词,明确要求执行一次自我反思推理步骤。通过结合这两种技术,我们的模型VL-Rethinker在MathVista和MathVerse上的先进分数分别达到80.4%和63.5%。VL-Rethinker也在诸如MathVision、MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试中取得了开源最佳性能,缩小了与OpenAI-o1的差距。我们的实验结果表明了我们方法的有效性。
arXiv:2504.08685v2 Announce Type: replace-cross
摘要:本技术报告呈现了一种成本高效的视频生成基础模型训练策略。我们提出了一种中型研究模型,名为Seaweed-7B,具有约70亿参数(7B),并在665,000个H100 GPU小时的资源下从头开始训练。尽管使用了中等规模的计算资源进行训练,Seaweed-7B在性能上仍然与更大规模的当代视频生成模型不相上下。在资源受限的环境中,设计选择尤为重要。本技术报告强调了增强中型扩散模型性能的关键设计决策。实证研究表明:(1)Seaweed-7B在性能上能够达到与在更大量GPU资源下训练的大型模型相当,甚至超越大型模型的效果;(2)我们的模型表现出色,具备较强的泛化能力,可以通过轻量级微调或继续训练有效地适应广泛的应用场景。更多详情请参见项目页面:https://seaweed.video/
arXiv:2504.08623v2 通知类型: 替换交叉
摘要:Model Context Protocol (MCP) 由 Anthropic 引入,提供了一种标准化框架,使人工智能 (AI) 系统能够实时与外部数据源和工具进行交互。虽然 MCP 为 AI 集成和能力扩展提供了显著优势,但它也引入了新的安全挑战,需要严格的分析和缓解。本文在此基于 MCP 架构的基础研究和初步安全性评估的基础上,提供了企业级缓解框架和详细的技术实施策略。通过系统的威胁建模、MCP 实施分析以及对包括复杂威胁如工具投毒在内的潜在攻击向量的分析,我们提出了针对 MCP 实施者和使用者的实际安全模式。研究的主要贡献在于将理论安全问题转化为可实施的、可操作的安全框架,从而为集成 AI 系统的安全企业采用和治理提供了必要的指导。
arXiv:2504.04592v2 更新类型: 替换-交叉
摘要: 考虑一个预训练代理在环境中运行,且有人类操作员可以在某些时间段内决定暂时终止其运行并接手操作的场景。这种类型的场景在人机交互中很常见,例如在自动驾驶、工厂自动化和医疗保健领域。在这些场景中,我们通常会观察到两种极端情况之间的权衡——如果不允许操作员接管,那么代理可能会执行一个不优化的、甚至可能是危险的策略。相反,如果接管次数过多,人类操作员将对代理缺乏信心,大大限制了其有用性。在本文中,我们形式化了这种设置,并提出了一种可解释性方案,以帮助优化人类干预的数量。