arXiv 论文列表

作者: Yuchen Wang, Shangxin Guo, Chee Wei Tan

arXiv:2504.01866v2 宣告类型: 替换-交叉摘要：大规模软件开发的快速发展对传统测试方法提出了越来越高的要求，经常导致效率、准确性和覆盖率方面的瓶颈。我们提出了一种新颖的软件测试视角，认为错误检测和减少代码中的错误是两个相互关联的问题，共同目标是在有限的资源下减少错误。我们将之前在人工智能辅助编程方面的研究进行了扩展，这支持代码自动补全和基于聊天机器人的问答，将其应用到了软件测试领域。我们引入了测试助手 Copilot，这是一种自动生成测试的系统，能够同步错误检测和代码库更新，利用基于上下文的检索增强生成 (RAG) 来增强大语言模型 (LLMs) 的能力。我们的评估结果显示，在错误检测准确性方面提高了 31.2%，在关键测试覆盖率方面提高了 12.6%，并且用户接受率提高了 10.5%，突显了人工智能驱动技术在现代软件开发实践中的变革潜力。

发布时间: 4/8/2025

查看原文

PiCo: 通过图形代码上下文化打破多模态大型语言模型限制

作者: Aofan Liu, Lulu Tang, Ting Pan, Yuguo Yin, Bin Wang, Ao Yang

arXiv:2504.01444v2 安全声明类型: 替换-交叉融合摘要：将视觉和其他模态集成到大规模语言模型（LLMs）中的多模态大规模语言模型（MLLMs）显著增强了人工智能能力，但也引入了新的安全漏洞。通过利用视觉模态的漏洞和代码训练数据的长尾分布特性，我们提出了 PiCo，一种新型的囚徒破解框架，旨在逐步绕过高级 MLLMs 的多层次防御机制。PiCo 采用逐层囚徒破解策略，使用字元级的排版攻击绕过输入过滤，将有害意图嵌入编程上下文指令中以绕过运行时监控。为了全面评估攻击的影响，我们提出了一个新的评估指标，以评估攻击后模型输出的毒性和帮助性。通过将有害意图嵌入代码风格的视觉指令中，PiCo 在 Gemini-Pro Vision 上获得了 84.13% 的平均攻击成功率，在 GPT-4 上获得了 52.66% 的成绩，超过了先前的方法。实验结果突显了当前防御措施中的关键空白，强调了需要更 robust 的策略来确保高级 MLLMs 的安全性。

发布时间: 4/8/2025

查看原文

MedReason: 使用知识图谱引出LLM中的事实医疗推理步骤

作者: Juncheng Wu, Wenlong Deng, Xingxuan Li, Sheng Liu, Taomian Mi, Yifan Peng, Ziyang Xu, Yi Liu, Hyunjin Cho, Chang-In Choi, Yihan Cao, Hui Ren, Xiang Li, Xiaoxiao Li, Yuyin Zhou

arXiv:2504.00993v2 公告类型: 交叉替换摘要：医疗任务，如诊断和治疗规划，需要精确且复杂推理，特别是在关键生命领域尤为如此。与数学推理不同，医疗推理要求仔细且可验证的思考过程以确保可靠性和准确性。然而，缺乏能够提供透明且逐步推理以验证和增强AI模型医疗推理能力的数据集。为此，我们介绍了MedReason，这是一个大型高质量的医疗推理数据集，旨在让大规模语言模型（LLMs）能够实现准确且可解释的医疗问题解决。我们利用结构化的医学知识图谱（KG）将临床问答对转换为逻辑推理链，即“思维路径”，这些路径通过相关KG实体追踪问题要素到答案之间的联系。每条路径都会经过临床逻辑和证据医学的一致性验证。我们的管道从7个医疗数据集中生成了针对各种医疗问题的详细推理，最终形成包含32,682个问答对的大规模数据集，每个问答对都有详细的逐步解释。实验表明，使用我们的数据集进行微调可以持续提升医疗问题解决能力，DeepSeek-Ditill-8B的改进幅度达到了7.7%。我们表现最好的模型MedReason-8B在临床基准测试MedBullets中比最先进的医疗推理模型Huatuo-o1-8B的表现高出4.2%。我们还邀请了来自不同专科的医疗专业人士评估数据集的质量，确保MedReason提供准确且连贯的医疗推理。我们的数据、模型和代码可在https://github.com/UCSC-VLAA/MedReason 获取。

发布时间: 4/8/2025

查看原文

HDVIO2.0: 基于混合动力学VIO的风速与干扰估计

作者: Giovanni Cioffi, Leonard Bauersfeld, Davide Scaramuzza

arXiv:2504.00969v2 宣告类型: 替换-交叉摘要：视觉-惯性里程计（VIO）广泛用于自主微空中车上板传感器的状态估计。当前的方法通过引入车辆平移动力学模型来改进VIO，但在遇到低精度车辆模型或持续外部干扰（如风）时，其性能会下降。此外，当这些模型在在线应用中部署时，如闭环控制系统中，引入旋转动力学模型在计算上是不可行的。我们提出了HDVIO2.0，该模型建模了完整的6-自由度（平移和旋转）车辆动力学，并将其紧密集成到VIO中，对运行时的影响最小。HDVIO2.0基于之前的HDVIO工作，并通过结合点质量车辆模型和基于学习的组件来解决这些挑战，该组件可以访问控制命令和惯性测量单元（IMU）历史，以捕获复杂的空气动力学效应。模型旋转动力学的关键思想是用连续时间函数来表示它们。HDVIO2.0利用混合动力学模型实际运动与预测运动之间的差异，来估计外部力以及机器人状态。我们的系统在使用公共和新无人机动力学数据集以及在高达25 km/h风速的真实飞行实验中超越了最先进的方法。与现有方法不同，我们还展示了在没有完整车辆状态精确知识的情况下，能够实现准确的车辆动力学预测。

发布时间: 4/8/2025

查看原文

Reddit 上的阿片类药物实体识别 (ONER-2025)

作者: Muhammad Ahmad, Humaira Farid, Iqra Ameer, Maaz Amjad, Muhammad Muzamil, Ameer Hamza, Muhammad Jalal, Ildar Batyrshin, Grigori Sidorov

arXiv:2504.00027v2 宣布类型: replace-cross 摘要：阿片类药物过量危机仍然是一个关键的公共卫生危机，特别是在美国，导致了大量的死亡和社会成本。像Reddit这样的社交媒体平台提供了大量的非结构化数据，这些数据可以揭示公众对阿片类药物使用及其相关讨论和经历的见解。本研究利用自然语言处理（NLP），特别是阿片类药物实体识别（ONER-2025），从这些平台中提取可操作的信息。我们的研究做出了四项主要贡献。首先，我们从Reddit创建了一个独特且人工标注的数据集，其中用户通过不同的给药途径分享他们自己报告的阿片类药物使用经验。该数据集包含331,285个标记，并包括八大主要的阿片类药物实体类别。其次，我们详细说明了我们的标注过程和指南，并讨论了标注ONER-2025数据集的挑战。第三，我们分析了阿片类药物讨论中的关键语言挑战，包括俚语、歧义、断句及情感浓厚的语言。第四，我们提出了一个实时监控系统，用于处理来自社交媒体、医疗记录和紧急服务的实时数据，以识别过量服用事件。使用11次实验中的5折交叉验证，我们的系统整合了机器学习、深度学习和基于变换器的语言模型，结合先进的上下文嵌入，以增强理解能力。我们的基于变换器的模型（bert-base-NER和roberta-base）达到了97%的准确率和F1分数，比基线模型高出10.23%（RF=0.88）。

发布时间: 4/8/2025

查看原文

深层神经网络作为哈密顿量

作者: Mike Winer, Boris Hanin

arXiv:2503.23982v2 提交类型: 替换-交叉摘要: 神经网络是其输入和参数的复杂函数。深度学习理论中许多先前的工作分析了在固定一组输入（例如训练数据集）下，网络输出在随机初始化参数时的分布。本文的目的与此相反：我们将随机初始化的多层感知机（MLP）视为其输入的哈密顿量。对于网络参数的典型实现，我们研究由该哈密顿量诱导的能量景观的性质，特别是在无穷宽度极限下局部全局最小值的结构。具体地，我们使用副本技巧进行精确的解析计算，给出给定能量下的熵（即空间的对数体积）。我们进一步推导出鞍点方程，描述从随机MLP诱导的吉布斯分布中独立同分布采样输入之间的重叠。对于线性激活函数，我们精确解决了这些鞍点方程。我们还针对各种深度和激活函数（包括tanh、sin、ReLU及形状非线性）进行了数值求解。我们发现，即使在无穷宽度下，随机MLP的景观也表现出丰富的行为。例如，对于tanh这样的非线性函数，随机MLP的景观显示出完全的副本对称性破坏；而对于浅层tanh和ReLU网络或深层形状MLP，则表现出复制对称性。

发布时间: 4/8/2025

查看原文

面向安全关键场景下的自动驾驶安全性与 robustness 基准测试与评估

作者: Jingzheng Li, Xianglong Liu, Shikui Wei, Zhijun Chen, Bing Li, Qing Guo, Xianqi Yang, Yanjun Pu, Jiakai Wang

arXiv:2503.23708v2 宣告类型: replace-cross 摘要：自主驾驶在学术界和工业界都取得了显著进展，包括感知任务性能的提升以及全栈自主驾驶系统的开发。然而，自主驾驶的安全性和鲁棒性评估尚未得到足够的重视。目前对自主驾驶的评估通常在自然驾驶场景下进行。然而，许多事故往往发生在极端情况下，也称为安全关键场景。这些安全关键场景难以收集，并且目前尚未明确界定什么构成了安全关键场景。在这项工作中，我们探讨了自主驾驶在安全关键场景下的安全性和鲁棒性。首先，我们提供了一个安全关键场景的定义，包括静态交通场景（例如对抗性攻击场景）和自然分布变化，以及动态交通场景（例如事故场景）。然后，我们开发了一个自主驾驶安全测试平台，以全面评估自主驾驶系统，不仅评估感知模块，还包括系统级评估。我们的工作系统地构建了一个自主驾驶的安全验证流程，为行业建立标准化测试框架和技术支持，降低实际道路部署中的风险。

发布时间: 4/8/2025

查看原文

Model Context Protocol (MCP)：概览、安全威胁与未来研究方向

作者: Xinyi Hou, Yanjie Zhao, Shenao Wang, Haoyu Wang

arXiv:2503.23278v2 公布类型: replace-cross 摘要：Model Context Protocol (MCP) 是一种标准化接口，旨在实现人工智能模型与外部工具和资源之间的无缝交互，打破数据孤岛，促进多样化系统的互操作性。本文提供了 MCP 的全面概述，重点介绍了其核心组件、工作流程以及 MCP 服务器的生命循环，该生命周期包括三个关键阶段：创建、运行和更新。我们分析了每个阶段所涉及的安全和隐私风险，并提出了缓解潜在威胁的策略。本文还探讨了当前 MCP 的现状，包括其被行业领导者采用的各种用例及其支持集成的工具和平台。我们探讨了 MCP 未来的发展方向，突出了影响其在更广泛的人工智能生态系统中的采纳和演化的挑战与机遇。最后，我们为 MCP 利益相关者提出了建议，以确保其在人工智能景观不断演变的情况下保持安全和可持续发展。

发布时间: 4/8/2025

查看原文

文本到图像扩散模型中的人物肖像光影参数控制

作者: Haoming Cai, Tsung-Wei Huang, Shiv Gehlot, Brandon Y. Feng, Sachin Shah, Guan-Ming Su, Christopher Metzler

arXiv:2503.21943v2 Announce Type: replace-cross 摘要：文本到图像的扩散模型在生成多样的肖像方面表现出色，但在阴影控制方面缺乏直观性。现有的编辑方法作为后处理手段，在实现多样风格的有效操作方面存在困难。此外，这些方法要么依赖于昂贵的现实世界的光场数据收集，要么需要大量的计算资源进行训练。为了解决这些局限性，我们介绍了一种名为Shadow Director的方法，该方法可以从训练良好的扩散模型中提取和操纵隐藏的阴影属性。我们的方法使用一个小型估计网络，仅需几千张合成图像和数小时的训练时间，无需昂贵的现实世界光场数据。Shadow Director在肖像生成过程中提供了参数化和直观的阴影形状、位置和强度的控制，同时保持了多样风格下的艺术完整性与个体识别。尽管仅在基于真实世界身份的合成数据上进行训练，但Shadow Director能够有效地推广到具有多样风格的生成肖像，使其成为一种更加易于访问且资源友好的解决方案。

发布时间: 4/8/2025

查看原文

强基线：基于YOLOv12和BoT-SORT-ReID的多无人机跟踪

作者: Yu-Hsi Chen

arXiv:2503.17237v2 宣告类型: replace-cross 摘要：在热红外视频中检测和跟踪多个无人 aerial 车辆 (UAV) 具有固有的挑战性，原因在于对比度低、环境噪声和目标尺寸较小。本文提供了一种直接的方法来解决热红外视频中多 UAV 的跟踪问题，利用了检测和跟踪领域的最新进展。不同于依赖于广为认可的 YOLOv5 与 DeepSORT 的组合，我们提出了一种基于 YOLOv12 和 BoT-SORT 的跟踪框架，并通过定制的训练和推理策略进行了优化。根据第四届反无人机挑战赛的评估标准，我们的方法达到了竞争性性能。值得一提的是，我们没有使用对比度增强或时间信息融合来丰富 UAV 特征，这一结果突显了我们的方法作为多 UAV 跟踪任务的“强基线”的优势。我们提供了实现细节、深入的实验分析以及潜在改进的讨论。相关代码可在 https://github.com/wish44165/YOLOv12-BoT-SORT-ReID 获取。

发布时间: 4/8/2025

查看原文