arXiv 论文列表

作者: Pawe{\l} Walkowiak, Marek Klonowski, Marcin Oleksy, Arkadiusz Janz

arXiv:2505.07856v1 声明类型: cross 摘要: 在生成对抗样本的过程中使用了各种技术，包括如 TextBugger 这样的方法，该方法在单词中引入了微小且难以察觉的扰动，从而改变了模型的行为。另一类技术是用同义词替换单词，这种方式保留了文本的意义，但改变了其预测类别，TextFooler 是这种攻击的典型例子。大多数对抗样本生成方法主要是针对非屈折语，通常是英语。在本工作中，我们评估了对抗攻击在屈折语中的表现。为了解释屈折对模型行为的影响及其在攻击下的鲁棒性，我们设计了一种新的协议，灵感来源于机械可解释性，并基于边缘归因补丁（EAP）方法。该提出的评估协议依赖于平行的任务特定语料库，该语料库包含两种语言——波兰语和英语——中的屈折和合数变体文本。为了分析模型并解释屈折与对抗鲁棒性之间的关系，我们基于面向任务的数据集 MultiEmo 创建了一个新的基准，这使得可以在模型中识别出与屈折相关的机械性元件，并分析这些元件在攻击下的行为。

发布时间: 5/14/2025

查看原文

CrashSage：一种以大规模语言模型为中心的用于上下文理解和可解释的交通事故分析框架

作者: Hao Zhen, Jidong J. Yang

arXiv:2505.07853v1 交叉类型：公告摘要：全球每年因道路事故伤亡人数超过130万，并导致超过1.8万亿美元的全球经济损失。这种深远的社会和经济影响强调了揭示事故机制和提供实用见解的道路安全研究的迫切需求。传统的统计模型和树型集成方法通常依赖于结构化的事故数据，忽视了上下文的细微差别，并难以捕捉到复杂的联系和内在语义。此外，这些方法往往会大量信息损失，特别是在涉及多车互动、事故进展和罕见事件特征的叙述性元素方面。本研究提出了CrashSage，这是一种以大型语言模型（LLM）为中心的新框架，旨在通过四项创新来推动事故分析和建模。首先，我们引入了一种表格到文本的转换策略，结合了关系数据集成方案，使原始异构事故数据能够转化为富含结构和关系上下文的丰富结构化文本叙述。其次，我们使用基于LLM的基础模型进行上下文感知的数据增强，以提高叙述的一致性，同时保持事实的完整性。第三，我们对LLaMA3-8B模型进行微调，用于事故严重程度推断，展示了在基线方法（包括零样本、带有思考链提示的零样本和少量样本学习）以及多个模型（GPT-4o、GPT-4o-mini、LLaMA3-70B）相对于其表现上的优越性。最后，我们采用基于梯度的可解释性技术来阐明模型在单个事故水平和更广泛的危险因素维度上的决策。这种解释机制增强了透明度，通过提供对最具影响力的因素的深入见解，使针对道路安全干预措施更具针对性。

发布时间: 5/14/2025

查看原文

基于LLM辅助判断的在线对话中欺诈和概念漂移的联合检测

作者: Ali Senol, Garima Agrawal, Huan Liu

arXiv:2505.07852v1 交叉型公告摘要：检测数字通信平台中的虚假互动仍然是一个具有挑战性和未充分解决的问题。这些互动可能会表现为无害的垃圾邮件，也可能升级为复杂的诈骗尝试，使得及早标识恶意意图变得困难。传统的检测方法通常依赖于静态异常检测技术，这些技术无法适应动态对话的变化。一个关键限制是将无害的话题转换误认为概念漂移，从而导致误报或漏报。我们提出了一种两阶段检测框架，首先使用定制的集成分类模型来识别可疑对话。为了提高检测的可靠性，我们引入了一步概念漂移分析，使用One-Class Drift Detector（OCDD）来隔离标记对话中的对话变化。当检测到漂移时，大型语言模型（LLM）会评估该变化是否指示欺诈操纵或合法话题改变。在没有检测到漂移的情况下，行为将被推断为类似于垃圾邮件。我们使用社会工程聊天场景数据集验证了该框架，并展示了其在提高实时欺诈检测的准确性和可解释性方面的实际优势。为了阐述权衡取舍，我们将我们的模块化方法与一个使用不同语言模型进行检测和判断的Dual LLM基线进行了比较。

发布时间: 5/14/2025

查看原文

基于AI Anatomy Understanding的内心超声心动图导管姿态估计

作者: Jaeyoung Huh, Ankur Kapoor, Young-Ho Kim

arXiv:2505.07851v1 宣布类型: cross 摘要：经导管心脏超声（Intra-cardiac Echocardiography, ICE）在心脏电生理（Electrophysiology, EP）和结构性心脏疾病（Structural Heart Disease, SHD）介入治疗中发挥着关键作用，通过提供心脏结构的高分辨率、实时成像。然而，现有的导航方法依赖于电磁（Electromagnetic, EM）跟踪，这种跟踪容易受到干扰和位置漂移的影响，或者需要基于操作者经验的手动调整。为了克服这些限制，我们提出了一种新颖的解剖结构感知的位姿估计系统，该系统仅从ICE图像中确定ICE导管的位置和方向，从而消除对外部跟踪传感器的需求。我们的方法利用基于Vision Transformer（ViT）的深度学习模型，该模型捕获ICE图像与解剖结构之间的空间关系。该模型在851个临床患者的临床上采集的数据集上进行训练，其中包括与左心房（Left Atrium, LA）网格位置和方向标签配对的ICE图像。ICE图像被分割成16x16嵌入并通过一个变压器网络处理，其中"[CLS]"标记通过独立的线性层分别预测位置和方向。该模型使用均方误差（Mean Squared Error, MSE）损失函数进行优化，平衡位置和方向的准确性。实验结果表明，平均位置误差为9.48毫米，方向误差分别为（16.13度，8.98度，10.47度）沿x、y、z轴，证实了模型的准确性。进一步的定性评估还验证了预测视图与目标视图在三维心脏网格内的对齐。这种AI驱动的系统增强了程序效率，减少了操作者的负担，并允许在无需跟踪的情况下实时进行ICE导管定位。所提出的方法可以独立运行或补充现有的映射系统（如CARTO），为ICE引导的介入治疗提供了变革性的方法。

发布时间: 5/14/2025

查看原文

两个身份的故事：人类和AI创作的人设的伦理审计

作者: Pranav Narayanan Venkit, Jiayi Li, Yingfan Zhou, Sarah Rajtmajer, Shomir Wilson

arXiv:2505.07850v1 Announce Type: cross 摘要：随着大型语言模型在生成合成角色方面越来越广泛地应用于诸如健康、隐私和HCI等数据受限领域，理解这些叙事如何代表身份，尤其是少数群体的身份变得尤为重要。在本文中，我们通过代表伤害的视角对3个大型语言模型（GPT4o、Gemini 1.5 Pro、Deepseek 2.5）生成的合成角色进行了审查，重点关注种族身份。我们使用结合了细读、词汇分析和参数化创造力框架的混合方法，将1512个由大型语言模型生成的合成角色与人类撰写的角色进行了比较。我们的研究发现，大型语言模型在种族标记方面过度强调，过度生产文化编码语言，并构建了语法复杂但叙事简化的角色。这些模式导致了包括刻板印象、异国情调、抹去和善意偏见在内的社会技术危害，这些危害往往通过表面上积极的叙述被掩盖。我们正式将这种现象定义为算法歧视，其中被边缘化身份变得更加显而易见，但也显得不够真实。基于这些发现，我们提出了叙事意识评估指标和以社区为中心的验证协议的设计建议，用于合成身份的生成。

发布时间: 5/14/2025

查看原文

SweRank：基于代码排名的软件问题定位

作者: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

arXiv:2505.07849v1 类型: cross 摘要: 软件问题定位是指识别与自然语言问题描述（例如，错误报告、功能请求）相关的精确代码位置（文件、类或函数）的任务，这是软件开发中一个关键但耗时的过程。虽然最近的基于大语言模型的自主方法显示出潜力，但由于复杂的多步推理以及依赖闭源大语言模型，它们往往会引入显著的延迟和成本。与此相反，传统的代码排名模型，通常优化用于查询到代码或代码到代码的检索，难以处理问题定位查询中的冗长和描述失败的特性。为了弥合这一差距，我们提出了SweRank，一种高效的软件问题定位检索和重排序框架。为了便于训练，我们从公共GitHub存储库中构建了SweLoc数据集，该数据集包含真实的Issue描述与其相应的代码修改配对。在SWE-Bench-Lite和LocBench上的实验证明，SweRank达到了最先进的性能，优于之前的排名模型以及使用闭源LLM如Claude-3.5的昂贵的自主系统。此外，我们展示了SweLoc在增强各种现有的检索器和重排序器模型以提高问题定位性能方面的实用性，确立了该数据集作为社区宝贵资源的地位。

发布时间: 5/14/2025

查看原文

亚衍射极限太赫兹反向传播压缩成像

作者: Yongsheng Zhu, Shaojing Liu, Ximiao Wang, Runli Li, Haili Yang, Jiali Wang, Hongjia Zhu, Yanlin Ke, Ningsheng Xu, Huanjun Chen, Shaozhi Deng

arXiv:2505.07839v1 通知类型: 交叉摘要：太赫兹单像素成像(TSPI)由于其实现简单和成本效益高而引起了广泛关注。然而，太赫兹波的相对较长的波长限制了其亚衍射尺度成像分辨率。虽然TSPI技术可以实现亚波长分辨率，但需要苛刻的实验条件和耗时的过程。在这里，我们提出了一种亚衍射尺度的太赫兹背向传播压缩成像技术。我们用单色连续波太赫兹辐射照射物体。传输的太赫兹波通过在500-μm厚的硅片背面生成的预排布图案进行调制，利用532-nm激光激发载流子实现。调制后的太赫兹波然后由单元素探测器记录。在物理模型约束条件下，使用未经训练的神经网络以超低压缩比（1.5625%）迭代重建物体图像，从而减少长时间采样。为了进一步抑制衍射场效应，结合角谱传播(ASP)理论模型在传播过程中太赫兹波的衍射，该网络从物体中检索近场信息，从而实现空间分辨率为~λ0/7（在0.36 THz时λ0 = 833.3 μm）的亚衍射成像，无需超薄光电调制器。该方法为推进太赫兹显微成像和其他逆向成像挑战提供了有效的解决方案。

发布时间: 5/14/2025

查看原文

从单体架构向微服务架构迁移以应用于多Agent系统

作者: Muskaan Goyal, Pranav Bhasin

arXiv:2505.07838v1 Announce Type: 兼容摘要: 从单体架构向微服务架构的过渡通过提高可扩展性和可维护性彻底改变了软件开发。这一范式的转变现在对于复杂的多代理系统（MAS）来说也变得 relevant。本文综述了在 MAS 特定背景下从单体架构向微服务架构的演变。它将强调传统单体 MAS 的局限性以及采用基于微服务的方法的好处。文章还将探讨核心架构原则和通信协议，包括代理通信语言（ACLs）、模型上下文协议（MCP）和应用到应用（A2A）协议。通过范式转变的比较视角，本文确定了新兴的架构模式、设计挑战和需要考虑的因素。

发布时间: 5/14/2025

查看原文

智能产品 3.0：去中心化AI代理和 Web3 智能标准

作者: Alex C. Y. Wong, Duncan McFarlane, C. Ellarby, M. Lee, M. Kuok

arXiv:2505.07835v1 宣告类型: cross 摘要：二十五年前，智能产品的规范建立起来，设想了实时连接，不仅使产品能够收集有关自身准确的数据，还能评估和影响自身的命运。Auto-ID 项目早期的工作集中在创建一个单一的、开源的标准存储库，用于存储和检索产品信息，为可扩展的连接奠定了基础。十年后，随着低成本 RFID 系统的出现，这种方法在实现物理商品与网络化信息环境之间低成本链接方面得到了重新审视。此后，区块链、Web3 和人工智能的进步带来了前所未有的弹性、共识和自主性。通过利用分散身份、基于区块链的产品信息和历史记录以及智能 AI 之间的协作，本文研究了这些发展，并概述了智能产品的 3.0 规范，展示了分散化和以人工智能驱动的能力如何促进物理 AI 和日常产品的无缝交互。

发布时间: 5/14/2025

查看原文

一个用于指导人工智能与互联网互动的领域特定语言

作者: Yuekang Li, Wei Song, Bangshuo Zhu, Dong Gong, Yi Liu, Gelei Deng, Chunyang Chen, Lei Ma, Jun Sun, Toby Walsh, Jingling Xue

arXiv:2505.07834v1 交叉公告类型摘要: 我们引入了ai.txt，这是一种新型领域特定语言(DSL)，旨在明确调节AI模型、代理与网页内容之间的互动，解决广泛采用的robots.txt标准的关键局限性。随着AI越来越多地参与在线材料的处理，如训练、提要生成和内容修改，现有的监管方法缺乏足够的细粒度和语义表达能力，以确保符合道德和法律要求。ai.txt通过启用精确的元素级监管并融合可被AI系统理解的自然语言指令，扩展了传统的基于URL的访问控制。为了便于实际部署，我们提供了一个集成了代码自完成和自动XML生成的集成开发环境。此外，我们提出了两种合规机制：基于XML的程序化强制执行和自然语言提示集成，并通过初步实验和案例研究证明了其有效性。我们的方法旨在促进AI-互联网互动的治理，推动数字生态系统中负责任的AI使用。

发布时间: 5/14/2025

查看原文