arXiv 论文列表

作者: Fanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia

arXiv:2503.12532v2 宣布类型: 替换交叉摘要：开发能够自主操作图形用户界面的AI代理是一个长期而具有挑战性的任务。近年来，在数据缩放定律方面的进展启发我们使用扩展的指令集来训练计算机使用代理，但是使用行为克隆来训练代理仍然需要大量的高质量轨迹数据。为了满足可扩展性的需求，我们设计了STEVE，一个计算机使用代理训练的步骤验证流水线。首先，我们为计算机使用代理建立了一个大型指令集，并使用一些次优代理收集轨迹数据。GPT-4o用于根据执行动作前后的屏幕来验证每个步骤的正确性，并为每个步骤分配二元标签。最后，我们采用了Kahneman和Tversky优化方法来优化代理，从二元步骤标签中利用正负动作。广泛实验表明，通过利用轨迹中的正负动作，我们的代理优于监督微调。此外，STEVE使我们能够训练一个7B视觉语言模型作为计算机使用代理，在具有挑战性的实时桌面环境WinAgentArena中达到了领先性能，并且在较低成本下实现了高效的训练。代码和数据：https://github.com/FanbinLu/STEVE。

发布时间: 3/25/2025

查看原文

当神经植入物遇到多模态LLM：一个用于神经调节和自然神经行为研究的双环系统

作者: Edward Hong Wang, Cynthia Xin Wen

arXiv:2503.12334v2 通知类型: 替换-交叉摘要：我们提出了一种新颖的双环系统，该系统将响应性神经刺激 (RNS) 植入物与基于人工智能的可穿戴设备协同结合，用于治疗创伤后应激障碍 (PTSD) 并促进自然脑研究。在 PTSD 治疗模式下，植入的闭环神经设备监控杏仁体活动，检测到病理性 θ 振荡时提供按需刺激，而一组穿戴设备（智能眼镜、智能手表、智能手机）使用多模态大型语言模型 (LLM) 分析感官数据，检测环境或生理 PTSD 触发因素并适时提供视听干预。来自神经和穿戴设备环中的记录事件将被分析以个性化触发检测，并逐步将患者过渡到非侵入性干预措施。在神经科学研究模式下，该平台调整用于真实世界的脑活动捕捉。穿戴设备-LLM 系统识别自然事件（社会互动、情绪情境、强迫行为、决策）并向植入的 RNS 设备（通过无线触发）发送信号，在这些时刻记录同步的颅内数据。这种方法建立在移动颅内 EEG 记录和人类闭环神经调节的近期进展之上 (BRAIN 行动计划，2023) (Mobbs 等人，2021)。我们讨论了我们的跨学科系统如何通过实现 24/7 监控、情境感知干预和丰富的数据收集以外部传统实验室为主的脑科学研究，从而彻底改写 PTSD 治疗和认知神经科学的概念。展望未来，希望通过 AI 增强的设备与人类大脑不断协作，提供治疗支持并深入洞察神经功能，由此产生的丰富现实场景下的神经数据将加速开发更加生物基础且以人为本的 AI。

发布时间: 3/25/2025

查看原文

Characterizing GPU 稳健性及其对 AI/HPC 系统的影响

作者: Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer

arXiv:2503.11901v2 宣布类型: replace-cross 摘要：在本研究中，我们分析了Delta系统中的GPU故障，Delta是当前具有超过600 petaflops峰值计算吞吐量的大型AI系统。该系统由配备现代AI加速器的GPU和非GPU节点组成，如NVIDIA A40、A100和H100 GPU。本研究利用了两年半的GPU错误数据。我们评估了GPU硬件组件的可靠性，以确定不同GPU组件的故障易感性及其对GPU和节点可用性的影响。我们测量了GPU硬件的关键传播路径、GPU互连（NVLink）和GPU内存。最后，我们评估了观察到的GPU错误对用户任务的影响。我们的主要发现包括：(i) 与普遍认为的相反，从MTBE（平均故障间隔时间）的角度来看，GPU内存比GPU硬件可靠30多倍。(ii) 新引入的GSP（GPU系统处理器）是最易发生故障的GPU硬件组件。(iii) NVLink错误并不总是导致用户任务失败，我们将其归因于所使用的基础错误检测和重试机制。(iv) 我们展示了多个实例，即来自一个关键GPU硬件组件的硬件错误导致应用程序失败。(v) 通过模拟，我们预测了GPU节点可用性在更大规模上的影响，发现为了应对GPU故障，需要额外提供5-20%的容量。如果GPU可用性提高到99.9%的水平，所需额外提供的容量将减少4倍。

发布时间: 3/25/2025

查看原文

太极：文本 anchoring 用于免疫视觉语言模型中的 jailbreak 图像

作者: Xiangyu Yin, Yi Qi, Jinwei Hu, Zhen Chen, Yi Dong, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan

arXiv:2503.10872v2 宣布类型: 替换-横跨摘要：视觉语言模型（VLMs）展现了令人印象深刻的推断能力，但仍然容易受到能够引发有害或不道德响应的监狱破解攻击的影响。目前的防御方法主要是白盒方法，需要访问模型参数并进行大量修改，这使得它们在很多现实场景中成本高昂且不切实际。虽然已经提出了一些黑盒防御方法，但它们通常会对输入施加约束或需要多次查询，从而在自动驾驶等安全关键任务中限制了其有效性。为了解决这些挑战，我们提出了一种名为**T**extual **A**nchoring for **I**mmunizing **J**ailbreak **I**mages（**TAIJI**）的新颖黑盒防御框架。TAIJI 利用基于关键短语的文本锚定来增强模型评估和减轻嵌入在视觉和文本提示中的有害内容的能力。与现有方法不同，TAIJI 在推断过程中仅需一次查询即可有效运行，同时保留 VLM 在良性任务上的性能。广泛实验表明，TAIJI 显著增强了 VLM 的安全性与可靠性，提供了适用于实际部署的实用且高效的解决方案。

发布时间: 3/25/2025

查看原文

Open-Sora 2.0：在200万美元以内训练一个商业级视频生成模型

作者: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You

arXiv:2503.09642v2 宣告类型: replace-cross 摘要：在过去一年中，视频生成模型取得了显著进展。AI视频的质量不断提升，但代价是模型规模增大、数据量增加，以及对训练计算资源的需求增加。在本报告中，我们介绍了用于仅200万美元训练的Open-Sora 2.0，这是一种商业级别的视频生成模型。通过这个模型，我们展示了训练顶级视频生成模型的成本是可以高度控制的。我们详细介绍了促成这一效率突破的所有技术，包括数据整理、模型架构、训练策略和系统优化。根据人类评估结果和VBench评分，Open-Sora 2.0在视频生成方面与开源的HunyuanVideo和闭源的Runway Gen-3 Alpha等全球领先模型相当。通过将Open-Sora 2.0完全开源，我们旨在使高级视频生成技术的访问更加平民化，促进内容创作领域的更广泛创新和创造力。所有资源均可在以下网址公开访问：https://github.com/hpcaitech/Open-Sora。

发布时间: 3/25/2025

查看原文

DeepInnovation AI：从学术研究到工业专利的人工智能创新全球数据集

作者: Haixing Gong, Hui Zou, Xingzhou Liang, Shiyuan Meng, Pinlong Cai, Xingcheng Xu, Jingjing Qu

arXiv:2503.09257v3 宣告类型：替换-交叉摘要：在快速发展的人工智能（AI）领域，映射创新模式并理解从研究向应用的有效技术转移对于经济增长至关重要。然而，现有的数据基础设施面临着碎片化、覆盖面不完整和评估能力不足的问题。在此，我们介绍了DeepInnovationAI，一个包含三个结构化文件的全面全球数据集。DeepPatentAI.csv：包含2,356,204项专利记录，具有8个领域特异性属性。DeepDiveAI.csv：涵盖了3,511,929篇学术出版物，具有13个元数据字段。这两个数据集利用了大型语言模型、多语言文本分析和双层BERT分类器来准确识别与AI相关的内容，同时利用超图分析创建了强大的创新指标。另外，DeepCosineAI.csv：通过应用语义向量相似性分析，此文件呈现了大约一百万对已计算的论文-专利相似度对，以增强对理论进步如何转化为商业技术的理解。DeepInnovationAI 允许研究人员、政策制定者和行业领袖预测趋势并识别合作机会。凭借广泛的时序和地理范围，它支持对技术发展模式和国际竞争动态的详细分析，并为建模 AI 创新和技术转移过程奠定了基础。

发布时间: 3/25/2025

查看原文

ResBench：具有资源意识的LLM生成FPGA设计基准测试

作者: Ce Guo, Tong Zhao

arXiv:2503.08823v2 申明类型: replace-cross 摘要:可编程门阵列（FPGAs）在现代硬件设计中得到了广泛应用，然而为FPGA实现编写硬件描述语言（HDL）代码仍然是一个复杂且耗时的任务。大型语言模型（LLMs）已 emerges 为一种有前途的工具，用于生成 HDL 代码，但现有的基于 LLM 的代码生成基准主要侧重于功能正确性，而忽视了硬件资源使用情况。此外，当前的基准提供有限的多样性，并不能充分代表真实的 FPGA 应用范围。为了解决这些不足，我们介绍了 ResBench，这是第一个专注于资源的基准，明确设计用于区分资源优化和不高效的 LLM 生成的 HDL 代码。ResBench 包含来自 12 个类别中的 56 个问题，涵盖了从有限状态机到金融计算的应用。我们的开源评估框架通过生成 Verilog 代码、验证正确性和测量资源使用情况来自动测试 LLM。实验主要分析查找表（LUT）的使用情况，揭示了 LLM 之间的显著差异，展示了 ResBench 识别生成更高效 FPGA 设计模型的能力。

发布时间: 3/25/2025

查看原文

归纳矩匹配

作者: Linqi Zhou, Stefano Ermon, Jiaming Song

arXiv:2503.07565v4 Announce Type: replace-cross 摘要：扩散模型和流匹配可以生成高质量的样本，但在推理时速度较慢，将它们提炼为少步模型通常会导致不稳定性和广泛的调优。为了解决这些权衡，我们提出了归纳矩匹配（Inductive Moment Matching, IMM），这是一种新的生成模型类，适用于一轮或多轮采样，且具有单阶段训练过程。与蒸馏不同，IMM 不需要为两个网络进行预训练初始化和优化；而与一致性模型不同，IMM 在各种超参数和标准模型架构下保证了分布级别的收敛性和稳定性。IMM 在使用仅 8 步推理即可在 ImageNet-256x256 上超越扩散模型，使用从头训练的模型在 CIFAR-10 上实现了最先进的 2 步 FID 得分 1.98。

发布时间: 3/25/2025

查看原文

通过剪裁冗余检索以增强层注意力效率

作者: Hanze Li, Xiande Huang

arXiv:2503.06473v3 宣告类型: replace-cross 摘要：越来越多的证据表明，层间注意机制在增强深度神经网络层间交互方面取得了显著进展，从而极大地提升了网络架构。然而，现有的层间注意方法存在冗余问题，因为相邻层学习到的注意权重往往变得非常相似。这种冗余导致多个层提取几乎相同的特征，降低了模型的表示能力并增加了训练时间。为了应对这一问题，我们提出了一种新的方法，通过利用相邻层之间的克劳特-莱布勒（Kullback-Leibler，KL）发散来量化冗余。此外，我们引入了一种增强的β分位数映射（Enhanced Beta Quantile Mapping，EBQM）方法，能够准确识别并跳过冗余层，从而保持模型的稳定性。我们提出的高效层间注意（Efficient Layer Attention，ELA）架构提高了训练效率和整体性能，在诸如图像分类和目标检测等任务上实现了30%的训练时间减少。

发布时间: 3/25/2025

查看原文

异质双模态注意力融合在语音情感识别中的应用

作者: Jiachen Luo, Huy Phan, Lin Wang, Joshua Reiss

arXiv:2503.06405v2 举报类型: replace-cross 摘要：多模态情感识别在对话中的挑战问题在于不同模态之间复杂的互补交互。音频和文本提示对从人类视角理解情感尤为重要。现有的大多数研究集中在探索在同一表示级别下的音频和文本模态之间的交互。然而，一个关键问题常常被忽略：低级音频表示与高级文本表示之间的异构模态差距。为了解决这一问题，我们提出了一种名为异构二模态注意融合（HBAF）的新框架，用于对话情感识别的多级多模态交互。该提出的方法包括三个关键模块：单模态表示模块、多模态融合模块和跨模态对比学习模块。单模态表示模块将上下文内容融入到低级音频表示中，以弥补异构多模态差距，从而实现更有效的融合。多模态融合模块使用动态二模态注意和动态门控机制来过滤错误的跨模态关系，充分挖掘模内和模间交互。最后，跨模态对比学习模块捕获音频和文本模态之间的复杂绝对和相对交互。在MELD和IEMOCAP数据集上的实验表明，提出的HBAF方法优于现有最先进的基线方法。

发布时间: 3/25/2025

查看原文