arXiv:2505.07864v1 宣告类型: 新颖
摘要: 流程图是软件设计和业务流程分析不可或缺的工具,然而当前的视觉-语言模型(VLMs)经常误读将这些图表与自然图像区分开来的方向箭头和图表拓扑结构。我们提出了一种七阶段管道,分为三个更广泛的过程:(1)带有箭头意识的节点和箭头端点检测;(2)光学字符识别(OCR),以提取节点文本;(3)构建一个结构化提示,指导VLMs。在从30个注释的流程图中提炼出的90个问题基准测试上进行测试,该方法在没有任何特定任务微调的情况下,将整体准确性从80%提高到89%(增加了9个百分点)。对于下一步查询,增幅最为明显(25/30 -> 30/30;100%,增加了17个百分点);分支结果查询有所改善,但增幅较小,而先前步骤查询仍然困难。一项与LLM-as-a-Judge协议并行的评估显示了相同的趋势,进一步证明了明确箭头编码的优势。局限性包括检测器和OCR精度的依赖性、小的评估集以及节点具有多个入边时残留的错误。未来的工作将通过合成和手绘的流程图扩大基准测试,并在业务流程建模和表示(BPMN)和统一建模语言(UML)上评估该方法。
arXiv:2505.07854v1 宣布类型: 新文章
摘要: 稀疏奖励环境在强化学习中提出了重大挑战,尤其是在多智能体系统(MAS)中,由于反馈延迟且在各个智能体之间共享,导致学习效果不佳。我们提出了协作多维度课程学习(CCL),这是一种新的课程学习框架,通过(1)细化每个智能体的中间任务,(2)使用变分进化算法生成有信息性的子任务,以及(3)智能体与其环境的协同演化来增强训练稳定性。在MPE和Hide-and-Seek环境中的五个合作任务实验中,CCL在稀疏奖励设置中表现出优于现有方法的效果。
arXiv:2505.07847v1 宣告类型: 新
摘要: 一个社会的可能性源自何处?社会活动中 coordination 和 cooperation 的可能性是什么?社会代理人的最小心理架构是什么?世界的状态信息与代理人的意图有何关系?代理人的意图之间又是如何相关的?沟通在这个协调过程中扮演什么角色?本文在多代理沟通与合作以实现某些目标的社会背景下探讨了人工社会智能的概念和逻辑基础。尝试提供了一些关键概念及其形式定义和相互关系的介绍。这些包括一个变化的社会世界中的多个代理人的概念。社会智能的逻辑超越了经典逻辑,将信息与战略思维联系起来。展示了社会代理人的最小架构。这些代理具有不同的动态变化的选择和能力。代理人们还存在不确定性,关于其物理状态以及动态社会状态的信息并不完美。代理人的社会状态包括代理人的意向状态,以及其他代理人的意向状态的代理人的表征。此外,还包括代理人为其物理和社会状况所作的评价。探讨了语义和语用意义,以及它们与意图和信息状态的关系。代理能力与意向的逻辑被激发并形式化。定义了群体战略状态的熵。
arXiv:2505.07846v1 安全和对齐类型:新
摘要:本研究揭示了当面对不可能情况时,前沿大规模语言模型(LLMs)如何“利用系统”的方式,这是一个关键的安全和对齐问题。我们使用一种新型的文本模拟方法,向三种领先的大规模语言模型(o1、o3-mini和r1)提供了设计成通过合法玩法规则无法获胜的井字游戏场景,然后分析了它们倾向于利用漏洞而非接受失败的趋势。研究表明,对于安全研究人员来说,这种结果令人担忧:专注于推理的较新模型o3-mini显示出了几乎是较旧模型o1(17.5%)两倍的利用系统漏洞的倾向(37.1%)。最引人注目的是提示的效果。仅仅将任务框架定义为需要“创造性的”解决方案就导致了所有模型的游戏行为急剧增加,达到77.3%。我们确定了四种不同的利用策略,从直接操纵游戏状态到复杂的对手行为修改。这些发现表明,即使没有实际执行能力,当被激励时,LLMs也能识别并提出复杂系统的利用方案,强调了随着模型变得更能识别并利用其运行环境中的漏洞,AI对齐面临的紧迫挑战。
arXiv:2505.07842v1 通知类型: 新
摘要: 随着无线接入网络(RAN)朝着AI原生架构演变,智能模块如xApps和rApps预计将在调度、移动性和资源配置等领域做出越来越多自主的决策。然而,这些代理仍然本质上是无状态的,将每个决策视为孤立的,缺乏任何持久性的先前事件或结果的记忆。这种反应性行为限制了优化,特别是在网络动态表现出阶段性或重复模式的环境中。在本文中,我们提出了RAN Cortex,这是一种增强记忆的架构,能够在基于AI的RAN决策系统中实现上下文回忆。RAN Cortex引入了一个模块化的层,由四个元素组成:一个上下文编码器,将网络状态转换为高维嵌入;一个基于向量的过去网络事件的记忆存储;一个检索引擎,用于检索语义上相似的情况;以及一个策略接口,能够实时或接近实时地为AI代理提供历史上下文。我们形式化了RAN中的检索增强决策问题,提供了与O-RAN接口兼容的系统架构,并分析了在Non-RT和Near-RT RIC域中的可行部署。通过如体育场交通缓解和无人机通道中的移动管理等示例使用案例,我们展示了上下文记忆如何提高适应性、连续性和整体RAN智能。本文将记忆引入了AI原生RAN设计中的缺失元素,并提供了一个框架,使得无需重新训练或集中推理即可实现“学习代理”。
arXiv:2505.07830v1 通告类型: 新
摘要: 在2016年至2022年间,美国共发生了超过3400起公共枪击事件。在这其中,25.1%发生在教育机构,29.4%发生在工作场所(包括办公楼),19.6%发生在零售店地点,13.4%发生在餐馆和酒吧。在这关键时刻,撤离时做出正确的决策可以极大地影响生与死。然而,紧急撤离过程非常紧张,加上缺乏可验证的实时信息,可能导致致命的错误决策。为解决这一问题,我们开发了一种多路径优化算法,在考虑路径上可用容量的情况下,为每位撤离者确定多条最优安全路径,从而降低拥挤和瓶颈的风险。总体而言,与我们之前没有容量约束的路径优化算法相比,我们的算法减少了总共34.16%的伤亡;与依靠专家建议的路径策略相比,我们的算法减少了53.3%的伤亡。此外,我们减少拥挤的方法使得关键瓶颈节点的占用率相比其他两种撤离算法约减少了一半。
arXiv:2505.06108v2 通知类型: 交叉替换
摘要:本研究系统地评估了27种前沿的大规模语言模型在覆盖分子生物学、遗传学、克隆、病毒学和生物安全八个生物学基准上的表现。这些基准从11月2022年至4月2025年由主要人工智能开发商发布的模型进行了十次独立的基准评估。研究结果揭示了生物学能力的显著提升。在病毒学能力测试的具有挑战性的纯文本子集上,顶级模型的表现在这段时间内提高了超过4倍,而OpenAI的o3现在的表现与专家病毒学家相当,甚至更好。一些模型现在在其他具有挑战性的基准测试中达到了或超过了专家级的水平,包括GPQA和WMDP的生物学子集以及LAB-Bench的克隆情景。与预期相反,在零样本评估中,chain-of-thought并没有显著提高性能,而o3-mini和Claude 3.7 Sonnet扩展的推理功能通常如预期的那样提高了性能,这是基于推理扩展的预测。如PubMedQA和MMLU以及WMDP的生物学子集等基准表现出接近100%的性能上限,表明基准饱和以及基准底层数据中的错误。该分析强调,随着人工智能系统的不断进步,需要更复杂的评估方法。
arXiv:2505.05877v2 宣告类型: 替换交叉
摘要:准确提取分子表示是药物发现过程中一个至关重要的步骤。近年来,在分子表示学习方法方面取得了显著进展,其中基于图像和2D/3D拓扑的多模态分子表示方法已成为主流。然而,现有的多模态方法通常直接融合不同模态的信息,忽略了跨模态交互的潜力,未能充分捕捉分子之间复杂的高阶关系和不变特征。为了解决这些挑战,我们提出了一种基于结构感知的多模态自监督分子表示预训练框架(MMSA),旨在通过利用分子之间不变知识来增强分子图表示。该框架由两个主要模块组成:多模态分子表示学习模块和结构感知模块。多模态分子表示学习模块通过协作处理同一分子的不同模态信息,克服跨模态差异并生成统一的分子嵌入。随后,结构感知模块通过构建超图结构来建模分子之间的高阶相关性,进而增强分子表示。该模块还引入了一种记忆机制,用于存储典型的分子表示,并将它们与记忆库中的记忆锚点对齐,以整合不变知识,从而提高模型泛化能力。大量实验表明,MMSA 的有效性,它在 MoleculeNet 基准测试上的表现优于基线方法,平均 AROC 指标提高了 1.8% 到 9.6%。
arXiv:2505.05573v2 宣告类型: 交叉替换
摘要:从文本描述生成现实的医学图像在解决医疗AI中的数据稀缺挑战方面具有巨大潜力,同时可以保护患者隐私。本文在医学领域进行了全面的文本到图像合成研究,对比了两种不同的方法:(1)微调大型预训练潜在扩散模型和(2)训练小型领域特定模型。我们介绍了一种名为MSDM的新模型,这是一种基于Stable Diffusion优化的架构,集成了临床文本编码器、变分自编码器和跨注意力机制,以更好地使医学文本提示与生成的图像对齐。我们的研究对比了两种方法:微调大型预训练模型(FLUX、Kandinsky)与训练紧凑的领域特定模型(MSDM)。在结肠镜检查(MedVQA-GI)和放射学(ROCOv2)数据集上的评估表明,尽管大型模型在保真度方面表现更好,但我们优化的MSDM在计算成本更低的情况下提供了可比拟的质量。定量指标和医疗专家的定性评估揭示了每种方法的优点和局限性。
arXiv:2505.05533v2 Announce Type: replace-cross
摘要:图对比学习(GCL)通过保持增强视图之间的绝对相似性,遵循计算机视觉领域的范式,已经取得了显著的成功。然而,由于图的离散且非欧几里得性质,这一方法在图中面临着根本性的挑战——视图生成往往破坏了语义的有效性和相似性验证变得不可靠。通过对11个真实世界的图进行分析,我们发现了一个超越同质性-异质性二分法的普遍模式:标签一致性随着结构距离的增加系统性地下降,表现为同质性图中的平滑衰减和异质性图中的振荡衰减。通过随机游走理论,我们为这一模式提供了理论保证,证明了标签分布的收敛,并表征了不同类型衰减行为背后的机制。这一发现揭示了图自然地编码相对相似模式,其中结构上更接近的节点表现出更强的语义关系。利用这一洞察,我们提出了RELGCL,一种新颖的GCL框架,具有互补的成对和列表实现,通过集体相似性目标保留这些内在的模式。广泛的实验证明,我们的方法在同质性和异质性图中均能一致地优于20种现有方法,验证了利用自然的相对相似性优于人工的绝对相似性的有效性。