arXiv 论文列表

CVE-Bench：评估AI代理利用real-world web应用漏洞能力的基准测试

作者: Yuxuan Zhu, Antony Kellermann, Dylan Bowman, Philip Li, Akul Gupta, Adarsh Danda, Richard Fang, Conner Jensen, Eric Ihli, Jason Benn, Jet Geronimo, Avi Dhir, Sudhit Rao, Kaicheng Yu, Twm Stone, Daniel Kang

arXiv:2503.17332v2 通知类型: replace-cross 摘要: 大型语言模型（LLM）代理越来越能够自主进行网络攻击，对现有应用程序造成了重大威胁。这一日益增长的风险突显了建立一个实际基准的紧迫需求，用于评估LLM代理利用web应用程序漏洞的能力。然而，现有的基准存在不足，它们仅限于抽象的Capture the Flag竞赛或缺乏全面覆盖。建立一个针对实际漏洞的基准涉及需要专业技能来重现漏洞利用，以及系统的方法来评估不可预测的威胁。为了解决这一挑战，我们引入了CVE-Bench，这是一个基于高严重性的通用漏洞和曝光（Common Vulnerabilities and Exposures）的现实世界网络安全基准。在CVE-Bench中，我们设计了一个沙盒框架，使LLM代理能够在模拟现实世界条件的场景中利用易受攻击的web应用程序，同时提供对其漏洞利用的有效评估。我们的评估结果显示，最先进的代理框架可以解决多达13%的漏洞。

发布时间: 4/3/2025

查看原文

交互式绘图板：一种用于协作视觉问题解决的多模态辅导系统

作者: Steven-Shine Chen, Jimin Lee, Paul Pu Liang

arXiv:2503.16434v2 通告类型: replace-cross 摘要：人类长期以来依赖于草图和图表等视觉辅助工具来支持推理和问题解决。诸如几何学中的辅助线或微积分中的图表等视觉工具对于理解复杂概念至关重要。然而，许多辅导系统仍然基于文本，仅通过自然语言提供反馈。利用大型多模态模型（LMM）的最新进展，本文介绍了交互式绘图板，这是一种将基于语言的解释与交互式可视化相结合以增强学习效果的辅导系统。基于预训练的LMM，交互式绘图板微调以提供文本和视觉的逐步指导，使学生能够进行自然的多模态交互。通过将代码执行纳入推理过程，生成准确且稳健的图表。在几何学、微积分和三角学等数学问题上的用户研究显示，交互式绘图板可以提高任务理解能力、解决问题的准确性以及参与度，突显了其有望革新教育技术的潜力。所有代码可在以下链接找到：https://stevenshinechen.github.io/interactivesketchpad/。

发布时间: 4/3/2025

查看原文

展望人工智能增强的心理健康生态系统

作者: Kellie Yu Hui Sim, Kenny Tsu Wei Choo

arXiv:2503.14883v3 宣布类型: 替换-交叉摘要：大型语言模型（LLMs）、推理模型和代理AI方法的快速发展与全球日益严重的精神健康危机相吻合，尽管需求在增加，但专业支持的获取仍然不足，特别是对于未得到充分服务的人群。这为AI通过补充以人类为主导的干预提供了一个独特的机会，可以提供可扩展且上下文相关的情感支持，同时在这一敏感领域保留人类联系。我们研究了在同伴支持、自助干预、主动监测和数据驱动洞察方面的各种AI应用，采用以人类为中心的方法确保AI辅助而非取代人类交互。然而，在精神健康领域部署AI也面临着诸如伦理关切、透明度、隐私风险和过度依赖等挑战。我们提出了一种混合生态系统，在这种生态系统中，AI辅助但不取代人类提供者，强调负责任的部署和评估。我们还介绍了我们在这些AI应用中的部分早期工作和发现。最后，我们概述了未来研究方向，旨在在遵守伦理和文化敏感指南的前提下改进基于AI的干预措施。

发布时间: 4/3/2025

查看原文

Cosmos-Transfer1：基于自适应多模态控制的条件世界生成

作者: NVIDIA, :, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Xinglong Sun, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng

arXiv:2503.14492v2 更改类型: replace-cross 摘要: 我们引入了Cosmos-Transfer，这是一种基于多种空间控制输入的世界生成模型，这些输入具有各种模态，如分割、深度和边缘。在设计中，空间条件方案是可适应和可定制的。它允许在不同的空间位置对不同的条件输入进行不同的加权。这使得世界生成具有高度可控性，并在各种从世界到世界的传输用例中找到用途，包括Sim2Real。我们进行了广泛评估以分析所提模型，并展示了其在物理AI中的应用，包括机器人Sim2Real和自动驾驶车辆数据增强。我们进一步展示了实现实时世界生成的推理缩放策略，使用了一块NVIDIA GB200 NVL72 橱柜。为了帮助在该领域的研究开发加速，我们在https://github.com/nvidia-cosmos/cosmos-transfer1上开源了我们的模型和代码。

发布时间: 4/3/2025

查看原文

评价SOLID原则在现代AI框架架构中的应用

作者: Jonesh Shrestha

arXiv:2503.13786v2 宣告类型: replace-cross 摘要：本研究评估了现代AI框架TensorFlow和scikit-learn在坚持SOLID设计原则方面的程度——单一职责、开放封闭、里氏替换、接口隔离和依赖倒置。通过对框架的架构文档和设计理念进行分析，本研究调查了在平衡软件工程最佳实践与AI特定需求时的架构权衡。我分别检查了各框架的文档、源代码和架构组件，评估它们对这些原则的遵循程度。结果表明，两个框架都采用了SOLID设计原则的某些方面，但在性能、可扩展性和AI开发的实验性质方面进行了有意的选择和权衡。TensorFlow侧重于性能和可扩展性，有时会牺牲对单一职责和接口隔离等原则的严格遵循。而scikit-learn的设计理念更符合SOLID原则，通过一致性接口和组合原则更加贴近SOLID指导方针，但在性能优化和可扩展性方面偶尔会偏离这些原则。本研究发现，在AI框架中应用SOLID原则依赖于具体的上下文，因为性能、可扩展性和灵活性常常需要从传统的软件工程原则中脱离出来。本研究有助于理解特定领域约束如何影响现代AI框架的架构决策，以及这些框架如何战略性地调整设计选择以有效平衡这些相互矛盾的需求。

发布时间: 4/3/2025

查看原文

在模型错误指定下的高效模仿

作者: Nicolas Espinosa-Dice, Sanjiban Choudhury, Wen Sun, Gokul Swamy

arXiv:2503.13162v2 宣布类型: replace-cross 摘要: 我们考虑在建模不准确情况下模仿学习的问题：在这种情况下，学习者基本上无法在所有地方复制专家的行为。这在实际操作中通常是真实的，由于机器人和人类在观察空间和动作空间表达能力上的差异（例如，机器人和人类在感知或形态上的差异）。考虑到学习者在错配设置下不可避免会出错，与环境的交互是根本上必要的，以找出哪些错误特别昂贵并导致累积错误。然而，考虑到交互固有的计算成本和安全问题，我们希望尽可能减少交互次数，同时确保我们已经学习到一个强大的策略。因此，先前的工作提出了一种高效的逆强化学习算法的变体，这些算法仅在可实现性设置中具有强保证时执行一种高效的局部搜索程序。我们首先证明，在我们称之为奖励无偏的策略完备性这一新颖的结构条件下，这类基于局部搜索的逆强化学习算法能够避免累积错误。然后我们考虑了首次进行局部搜索的地点，鉴于学习者在错配设置下可能无法如专家一样“走钢丝”。我们证明，在错配设置中，扩展用于执行局部搜索的状态集是有益的，包括学习者可以实际玩好的策略所能到达的状态。然后我们实验性地研究了各种错配来源以及离线数据如何有效扩展执行局部搜索的地点。

发布时间: 4/3/2025

查看原文

一个生成型智能体社会能否模拟人类行为并影响公共卫生政策？以疫苗犹豫为例的研究案例

作者: Abe Bohan Hou, Hongru Du, Yichen Wang, Jingyu Zhang, Zixiao Wang, Paul Pu Liang, Daniel Khashabi, Lauren Gardner, Tianxing He

arXiv:2503.09639v3 宣告类型: 替换-跨领域摘要: 我们能否通过生成性代理模拟沙盒社会，以建模人类行为，从而减少对实际人类试验的过度依赖，评估公共政策的效果？在这项工作中，我们探讨了使用疫苗犹豫作为案例研究，在健康相关决策建模中的可行性。疫苗犹豫被定义为尽管有疫苗接种服务，但因社会动态和疾病相关信息而延迟接受或拒绝疫苗（MacDonald, 2015）。为此，我们引入了一个名为VacSim的框架，该框架包含100个由大型语言模型（LLMs）驱动的生成性代理。VacSim通过以下步骤模拟疫苗政策的结果：1）基于人口普查数据为代理实例化一个具有人口统计特征的群体；2）通过社会网络连接代理，并将疫苗态度建模为社会动态和疾病相关信息的函数；3）设计和评估旨在缓解疫苗犹豫的各种公共卫生干预措施。为了与现实世界的成果保持一致，我们还引入了模拟预热和态度调制，以调整代理的态度。我们提出了一系列评估，以评估各种LLM模拟的可靠性。实验表明，如Llama和Qwen等模型可以模拟人类行为的某些方面，但也突出了现实世界对齐的挑战，如与人口统计数据不一致的响应。这项早期的LLM驱动模拟探索并不旨在作为政策指导的最终依据，而是作为呼吁行动以研究社会模拟对政策制定的影响。

发布时间: 4/3/2025

查看原文

TS-RAG：基于检索增强生成的时间序列基础模型是更强的零-shot 预测器

作者: Kanghui Ning, Zijie Pan, Yu Liu, Yushan Jiang, James Y. Zhang, Kashif Rasul, Anderson Schneider, Lintao Ma, Yuriy Nevmyvaka, Dongjin Song

arXiv:2503.07649v2 宣告类型: 替换-交叉摘要：近年来，大型语言模型（LLMs）和基础模型（FMs）在时间序列预测任务中变得流行。然而，针对预测任务微调大型语言模型（LLMs）可以使其适应特定领域，但可能在跨多样且未见数据集上表现不佳。与此同时，现有的时间序列基础模型（TSFMs）缺乏内在的领域适应机制，可解释性有限，这使得它们在零样本预测中不太理想。为此，我们提出了一种基于检索增强生成的时间序列预测框架TS-RAG，该框架增强了TSFMs的一般化能力和可解释性。具体而言，TS-RAG 利用预训练的时间序列编码器从专用知识数据库中检索与给定时间序列查询语义相关的时序片段，并结合上下文模式。接下来，我们开发了一种可学习的 Experts 组合模块（MoE-based augmentation module），该模块动态地将检索到的时间序列模式与TSFM对输入查询的表示融合在一起，提高预测准确性，而无需任务特定的微调。在七个公开基准数据集上的彻底实验证明，TS-RAG 达到了最先进的零样本预测性能，在多种领域中表现优于TSFMs，并展示了所需的可解释性。

发布时间: 4/3/2025

查看原文

重新思考合成数据的定义：以隐私为导向的方法

作者: Vibeke Binz Vallevik, Serena Elizabeth Marshall, Aleksandar Babic, Jan Franz Nygaard

arXiv:2503.03506v2 宣告类型: 交叉替换摘要：合成数据正逐渐成为解决AI发展中不断增加的数据需求的一种经济有效的解决方案，它可以源自现有的知识或从现实世界事件中捕捉到的衍生数据生成。合成数据生成的源头和技术对其残余隐私风险产生了显著影响，进而影响了其共享的机会。传统的合成数据类型分类不再适用于新的生成技术，需要更好地将分类与实际需求对接。我们提出了一个新的合成数据类型分类方式，以更好地支持隐私评估，助力监管政策制定。我们的新分类方式为新的发展如深度生成方法提供了灵活性，并为未来的应用提供了一个更为实用的框架。

发布时间: 4/3/2025

查看原文

DivPrune：基于多样性的视觉词 token 裁剪方法用于大型多模态模型

作者: Saeed Ranjbar Alvar, Gursimran Singh, Mohammad Akbari, Yong Zhang

arXiv:2503.02175v2 宣告类型: replace-cross 摘要: 大型多模态模型（LMMs）已经发展成为能够理解多种数据模态的强大模型，包括文本、图像和视频。LMMs 将文本和视觉数据编码成tokens，然后由集成的大语言模型（LLM）进行组合和处理。包含视觉tokens大幅增加了总的tokens数量，通常增加数千个。对于LLM的增加输入长度显著增加了推理的复杂性，导致大模态模型（LMMs）的高延迟。为了解决这个问题，提出了一种tokens剪枝方法，该方法去除了一部分视觉tokens。现有的tokens剪枝方法要么需要大量的校准和微调，要么依赖于次优的重要性指标，这导致保留的tokens之间存在增加的冗余性。在本文中，我们首先将tokens剪枝问题形式化为最大最小多样性问题（MMDP），目标是在所选tokens之间最大化多样性。然后，我们解决了MMDP来获得所选子集并剪枝其余部分。所提出的方法DivPrune减少了冗余性并且实现了选定tokens的最高多样性。通过确保高多样性，选定的tokens更好地代表了原始tokens，即使在高剪枝比例下也不需要微调也能实现有效性能。使用各种LMMs进行的广泛实验表明，DivPrune在16个图像和视频语言数据集上实现了最先进的准确性。此外，DivPrune还降低了测试模型的端到端延迟和GPU内存使用量。代码可在$\href{https://github.com/vbdi/divprune}{这里}$获得。

发布时间: 4/3/2025

查看原文