arXiv:2504.19967v1 类别: cross
摘要:交通流量预测是智能交通系统的关键组成部分,但由于长期趋势与短期波动之间的相互作用,准确预测交通状况仍然具有挑战性。标准的深度学习模型往往难以应对这些挑战,因为它们的架构本质上会平滑掉细微的波动,而专注于一般趋势。这一局限性源自低通滤波效应、门偏置更倾向于稳定性和记忆更新机制优先保留长期信息。为了解决这些不足,本文提出了一个结合了长短期信息的混合深度学习框架,在两个并行处理的输入特征中整合了长期趋势和短期波动信息,旨在捕捉交通流量动态的补充方面。此外,我们的方法利用了注意力机制,特别是Bahdanau注意力,有针对性地关注交通数据中的关键时间步骤,增强了模型预测拥堵和其他瞬态现象的能力。实验结果显示,两个分支中学习到的特征是互补的,与基准模型相比,显著改善了多个预测时间段的拟合优度统计指标。值得注意的是,注意力机制通过直接针对即时波动提高了短期预测准确性,但长期趋势的完全整合仍然存在挑战。该框架可以为更有效的拥堵缓解和城市交通规划做出贡献,通过提高交通预测模型的稳健性和精确性。
arXiv:2504.19956v1 安全公告类型: cross
摘要:随着生成式人工智能(GenAI)代理在企业环境中的普及,它们引入了与传统系统截然不同的安全挑战。这些代理不仅仅是大语言模型(LLM),它们能够推理、记忆和行动,往往在最少的人类监督下进行操作。本文介绍了一个专为GenAI代理设计的综合威胁模型,重点探讨了它们的自主性、持久性内存访问、复杂的推理以及工具集成所带来的新型风险。这项研究工作识别了9个主要威胁,并将它们组织在五个关键领域中:认知架构漏洞、时间持久性威胁、操作执行漏洞、信任边界违规和治理规避。这些威胁不仅仅是理论上的,它们带来了实际挑战,例如延迟的利用性、跨系统传播、跨系统的横向移动和难以用现有框架和标准方法检测到的微妙目标偏离。为了应对这些挑战,这项研究工作提出了两个互补框架:ATFAA - 自主人工智能代理的高级威胁框架,该框架组织了代理特有的风险,以及SHIELD,一个提出实际缓解策略的框架,旨在减少企业风险暴露。尽管这项工作建立在现有的LLM和AI安全工作之上,但重点在于代理的不同之处以及为什么这些区别很重要。最终,这项研究认为,需要为GenAI代理提供一种新的安全视角。如果我们不适应现有的威胁模型和防御措施,来应对它们的独特架构和行为,那么我们可能会将一个强大的新工具转变为严重的企业责任。
arXiv:2504.19951v1 公告类型: cross
摘要:生成人工智能(GenAI)多代理系统(MAS)的兴起需要标准化协议,使代理能够发现和与外部工具进行交互。然而,这些协议带来了新的安全挑战,特别是工具抢注;即工具的欺诈性注册或代表。本文在新兴的互操作性标准(如模型上下文协议(MCP)或代理之间无缝通信协议)的背景下分析了工具抢注威胁。它介绍了一个全面的工具注册系统,旨在减轻这些风险。我们提出了一种以安全性为导向的架构,该架构包括管理员控制的注册、集中化的工具发现、通过专门的代理和工具注册服务实施的细粒度访问策略、基于工具版本和已知漏洞的动态信任评分机制,以及即时凭证分配。基于其设计原则,所提出的注册框架旨在有效防止常见的工具抢注攻击向量,同时保持多代理系统的灵活性和功能。本文解决了快速演化的GenAI生态系统中的一个关键安全缺口,并为生产环境中的安全工具集成提供了一个基础。
arXiv:2504.19949v1 类型: cross
摘要:准确建模气动系数对于理解并优化现代飞机系统的性能至关重要。本文介绍了Evolving Type-2 Quantum Fuzzy Neural Network(eT2QFNN)在建模ATTAS飞机的气动系数方面的新型应用,以表达气动特性。eT2QFNN通过其基于规则的结构和增量学习策略,而不是传统批处理学习方法,能够通过创建多个线性子模型来表示非线性飞机模型。此外,利用其量子隶属函数以及自动规则学习和参数调整能力,增强了对不确定性和数据噪声的鲁棒性。在通过ATTAS飞行数据估计气动系数的过程中,在训练阶段进行了两种不同的研究:一种是有大量数据,另一种是有少量数据。结果显示,eT2QFNN在建模性能方面优于基准对比。此外,eT2QFNN相比类型1模糊系统的模型需要更少的规则。另外,通过将Delta方法应用于该方法,分析了飞机的稳定性与控制派生。结果证明了所提出的eT2QFNN在表示气动系数方面的优越性。
arXiv:2504.19944v1 交叉公告类型
摘要:我们研究了在概率性和因果推理中满足性问题的复杂性。对于有限域上的随机变量 $X_1, X_2, \ldots$,基本术语是原子事件 $X_i = x_i$ 上的命题公式的概率,例如 $P(X_1 = x_1)$ 或 $P(X_1 = x_1 \vee X_2 = x_2)$。这些基本术语可以使用加法(产生线性术语)或乘法(产生多项式术语)进行组合。概率性的满足性问题询问是否存在联合概率分布满足这些术语上的布尔组合不等式。Fagin 等人(1990)展示了对于基本和线性术语,该问题的复杂性为 NP 完全,使得其复杂性与布尔满足性问题相当,而 Mossé 等人(2022)证明了对于多项式术语,该问题属于实数存在理论的完全问题。
佩尔的因果层次(PCH)扩展了概率性设置,加入了干预和反事实推理,增强了语言的表达能力。然而,Mossé 等人(2022)发现满足性复杂性没有变化。Van der Zander 等人(2023)显示,在语言中引入归一化操作符会显著增加复杂性。
我们在这一研究领域的基础上,通过约束模型添加了两个新的维度。首先,我们固定底层结构因果模型的图形结构,受到佩尔的 do-因果计算等设置的启发,给出了不同算术和 PCH 级别上的几乎完整图景。第二,我们研究小型模型。虽然早期工作表明可满足实例可以拥有多项式大小的模型,但在紧凑归一化之后这不再得到保证。我们探讨了不同情境下,在小型模型约束下的满足性复杂性。
arXiv:2504.19940v1 交叉类型: cross
摘要: 网络上虚假信息的广泛传播迫切需要可扩展且可靠的事实核查解决方案。虽然众包事实核查——由非专家评估声明的真实性——提供了与专家验证相比成本效益更高的选择,但对其质量的波动性和偏差表示担忧。尽管在某些情况下取得的进展令人鼓舞,但主要平台如X(前身为Twitter)、Facebook和Instagram已经开始从集中的管理转向分散的、基于众包的方法。
与此同时,大型语言模型(LLMs)的进步在核心事实核查任务中显示出强大的性能,包括声明检测和证据评估。然而,它们在众包工作流中的潜在作用尚未得到探索。本文探讨了大型语言模型赋能的生成型代理——能够模仿人类行为和决策过程的自主实体——是否能够在传统上由人类群体承担的事实核查任务中发挥有意义的贡献。我们使用La Barbera等人(2024)的协议,模拟了具有多样化的人口统计学和社会认知特征的生成型代理群体。代理检索证据,根据多个质量维度评估声明,并做出最终的真实性判断。
我们的结果显示,生成型代理群体在真实性分类方面优于人类群体,表现出更高的内部一致性,并且对社会和认知偏见的抵抗力较小。与人类相比,代理更加系统地依赖于准确性、精确度和信息性等有益标准,表明其决策过程更加结构化。总体而言,我们的研究结果突显了生成型代理作为可扩展、一致且较少偏见的众包事实核查系统贡献者的潜在价值。
arXiv:2504.19918v1 Announce Type: 多模态
摘要:自动总结外科视频对于提高程序文档、支持外科培训以及促进术后分析至关重要。本文提出了一种结合人工智能和医学的新方法,旨在开发直接应用于外科场景的机器学习模型。我们提出了一种多模态框架,利用计算机视觉的最新进展和大型语言模型来生成全面的视频总结。
该方法分为三个关键阶段。首先,将外科视频分割成片段,并使用视觉变换器在帧级别提取视觉特征。这一步骤集中在检测工具、组织、器官和外科动作。其次,提取的特征通过大型语言模型转换为帧级别的描述。然后,将这些描述与通过基于ViViT的编码器捕获的时间特征结合,生成反映每个视频片段更广泛背景的片段级总结。最后,使用为总结任务量身定制的大型语言模型将片段级描述综合成完整的外科报告。
我们在CholecT50数据集上评估了该方法,使用了50个腹腔镜视频中的器械和动作注释。结果表明,该方法在工具检测方面表现出色,精度为96%,在时间上下文总结中的BERT得分为0.74。本工作为AI辅助的外科报告工具的发展做出了贡献,提供了更智能和可靠的医学文档的一个步骤。
arXiv:2504.19901v1 类型: cross
摘要: 我们证明了带有最少附加结构的单层、单头自注意力和交叉注意力机制具有普遍逼近能力。我们的核心见解是将单头注意力视为一种输入域分区机制,为子区域分配不同的值。这使我们能够设计注意力权重,使得这种分配模仿目标函数。在此基础上,我们证明,在$L_\infty$范数下,前接求和线性变换的一层自注意力机制能够逼近任何紧支撑域上的连续函数。此外,我们将这种构造扩展到在$L_p$范数下($1 \leq p < \infty$)逼近任何勒贝格可积函数。最后,我们还扩展了我们的技术,并证明了单头交叉注意力首次实现了相同的普遍逼近保证。
arXiv:2504.19900v1 交叉公告类型:cross
摘要:准确地从高分辨率乳腺X光片中检测乳腺癌对于早期诊断和有效的治疗计划至关重要。先前的研究已经表明,使用单视角X光片进行乳腺癌检测的潜力。然而,整合多视角数据可以提供更全面的洞察。在医学成像中,多视角分类尤其具有挑战性,尤其是在处理大规模、高分辨率数据时。在这项工作中,我们提出了一种新颖的多视角视觉提示调优网络(MVPT-NET)以分析多个筛查用的X光片。我们首先在一个高分辨率的乳腺X光片上预训练一个稳健的单视角分类模型,然后创新地将多视角特征学习融入到任务特定的提示调优过程中。这种方法选择性地调优了少量可训练参数(7%),同时保留了预训练单视角模型的鲁棒性,从而可以在无需进行激进的下采样的情况下高效地整合多视角数据。我们的方法为传统的特征融合方法提供了高效的替代方案,提供了更稳健、更具扩展性和更高效的高分辨率乳腺X光片分析解决方案。在大型多机构数据集上的实验结果表明,我们的方法在保持检测效率的同时优于传统方法,对于区分良性、DCIS和侵袭性三种类别,在AUROC上达到了0.852。这项工作突显了MVPT-NET在医学成像任务中的潜力,并提供了一种可扩展的解决方案,用于在乳腺癌检测中整合多视角数据。
arXiv:2504.19874v1 公告类型: cross
摘要: 作为香农信源编码理论的一个问题,向量量化旨在在最小化几何结构失真的同时对高维欧几里得向量进行量化。我们提出了 TurboQuant 以同时处理均方误差(MSE)和内积失真,克服了现有方法无法达到最优失真率的局限性。我们的数据盲算法适用于在线应用,并在所有位宽和维度下实现了接近最优的失真率(在一个小常数因子内)。TurboQuant 通过随机旋转输入向量,诱导坐标上的集中Beta分布,并借助高维中不同坐标几乎独立的性质,逐个坐标应用最优标量量化器来实现这一目标。由于MSE最优量化器在内积估算中引入了偏差,我们提出了两阶段方法:先应用MSE量化器,再对残差进行1比特量化JL(QJL)变换,从而得到无偏的内积量化器。我们还提供了任何向量量化器所能达到的最佳可实现失真率的信息论下界的形式证明,展示了TurboQuant 接近这些下界,仅相差一个小常数因子(约为2.7)。实验结果验证了我们的理论发现,显示在KV缓存量化中,每通道3.5比特可实现绝对质量中立性,每通道2.5比特则略有质量下降。此外,在最近邻搜索任务中,我们的方法在召回率方面优于现有产品量化技术,同时降低了索引时间至接近零。