arXiv:2504.09037v1 通知类型: 新闻
摘要: 推理是一种基本的认知过程,使逻辑推断、问题解决和决策成为可能。随着大型语言模型(LLMs)的迅速发展,推理已成为区分高级AI系统和通过增强聊天机器人的传统模型的关键能力。在这篇综述中,我们从两个相互正交的维度对现有方法进行分类:(1) 规模,这定义了推理实现的阶段(要么在推理时间,要么通过专门训练);和 (2) 架构,这决定了推理过程中涉及的组件,区分独立的LLM和引入外部工具的代理复合系统以及多智能体合作。在每个维度中,我们分析了两种关键视角:(1) 输入级别,侧重于构建LLM所依赖的高质量提示的技术;和 (2) 输出级别,侧重于改进推理质量的处理多个采样候选人的方法。这种分类提供了对LLM推理不断变化的景观的系统性理解,突出了从推理缩放转向学习推理(例如,DeepSeek-R1)等新兴趋势,以及从指令流程到代理流程的转变(例如,OpenAI Deep Research、Manus Agent)。此外,我们涵盖了从监督微调到强化学习(如PPO和GRPO)等各种学习算法,还包括推理者和验证者的训练。我们还探讨了代理流程的关键设计,从生成器-评估器和LLM辩论等已确立的模式到最近的创新。
arXiv:2504.08974v1 通知类型: 新
摘要: 视觉语言模型(VLMs)通过有效地结合视觉和文本信息来解决复杂任务,展现了出色的表现。然而,目前尚不清楚这些模型在处理视觉和文本数据时是如何进行推理的,以及不同模态之间信息流的结构如何。在本文中,我们通过分析模型在面临呈现矛盾图像和文本线索的情景时的偏见,来考察VLMs的推理过程,这在实际应用中是一种常见情况。为了揭示这些偏见的范围和性质,我们基于现有的基准数据集构建了五个包含矛盾图像-文本配对的数据集,涵盖了数学、科学和视觉描述等领域的话题。我们的分析表明,当查询更为简单时,VLMs更喜欢文本,而随着查询复杂性的增加,它们则更倾向于图像。这些偏见与模型规模相关,不同任务和模型之间,图像和文本偏好响应的百分比差异从+56.8%(图像偏好)到-74.4%(文本偏好)不等。此外,我们探索了三种缓解策略:简单的提示修改、明确指示模型如何处理矛盾信息的修改(类似于逐步推理提示),以及一种任务分解策略,该策略分别分析每个模态,然后结合其结果。我们的研究结果表明,这些策略在识别和缓解偏见的有效性上存在显著差异,并且与模型在特定任务上的整体性能以及涉及的具体模态紧密相关。
arXiv:2504.08909v1 公告类型: 新
摘要: 从干涉合成孔径雷达(InSAR)数据中获取的冰川和雪覆盖区域的数字高程模型(DEM)常常表现出系统性的高程误差,通常称为“穿透偏差”。我们利用现有的物理模型,并提出了一种结合参数物理建模和机器学习的集成校正框架。我们通过三种不同的训练场景来评估该方法,每种场景由不同的获取参数集定义,以评估整体性能和模型的泛化能力。我们使用TanDEM-X数据对格陵兰冰盖的实验表明,提出的混合模型校正明显减少了与纯物理建模基线相比的DEM误差的均值和标准差。当使用有限多样性的获取参数数据进行训练时,混合框架还实现了显著改进的泛化能力,优于纯机器学习方法。
arXiv:2504.08806v1 通告类型: 新
摘要: 提升移动机器人在空间感知方面的能力对于实现具身视觉-语言导航(VLN)至关重要。尽管在模拟环境中取得了显著进展,但直接将这些能力转移到现实世界场景中通常会导致严重的幻觉现象,使机器人丧失有效的空间意识。为了解决这一问题,我们提出了一种受生物空间认知理论和记忆地图理论启发的空间认知导航框架 BrainNav。BrainNav 结合了双地图(坐标地图和拓扑地图)和双方向(相对方向和绝对方向)策略,通过动态场景捕获和路径规划实现实时导航。其五个核心模块——海马体记忆中枢、视觉皮层感知引擎、顶叶空间构建器、前额叶决策中心和小脑运动执行单元——模拟生物认知功能,以减少空间幻觉并增强适应性。在使用 Limo Pro 机器人进行的零样本现实世界实验室环境中,BrainNav 兼容 GPT-4,其性能优于现有的 SOTA 视觉-语言导航在连续环境中的方法,无需微调。
arXiv:2504.08747v1 宣告类型: 新
摘要: 大数据的快速增长和计算技术的进步显著改变了体育分析领域。然而,包括结构化统计信息、半结构化格式如传感器数据以及未结构化媒体如文章、音频和视频在内的多种数据源的广泛存在,为提取可行的洞察带来了巨大挑战。这些不同格式的数据,通常被称为多模态数据,需要集成才能充分利用其潜力。传统的系统通常侧重于结构化数据,在处理和组合这些多样化的内容类型时面临局限性,从而降低了其在实时体育分析中的有效性。
为应对这些挑战,最近的研究强调了多模态数据集成在捕捉现实世界体育环境复杂性方面的关键性。在此基础上,本文引入了 GridMind,这是一个多代理框架,通过检索增强生成(RAG)和大型语言模型(LLMs)将结构化、半结构化和未结构化数据统一,以促进对NFL数据的自然语言查询。这种方法与不断发展的多模态表示学习领域相一致,其中统一的模型在实时跨模态交互中变得越来越重要。
GridMind 的分布式架构包括专门的代理,它们自主管理提示处理的每个阶段——从解释和数据检索到响应合成。这种模块化设计使多模态数据的灵活、可扩展处理成为可能,允许用户提出复杂、丰富背景的问题,并通过对话界面接收全面、直观的响应。
arXiv:2504.08737v1 宣告类型: 新
摘要: 研究人员最近将分布式约束优化问题(DCOPs)扩展到了通信感知DCOPs(CA-DCOPs),使其适用于消息可以任意延迟的情景。为CA-DCOPs设计的分布式异步局部搜索和推断算法比专门为常规DCOPs设计的同类算法对消息延迟的脆弱性较小。然而,与常规DCOPs的局部搜索算法不同,这些算法收敛到k-最优解(k > 1),即无法通过一组k个代理进行改进的解,CA-DCOP的局部搜索算法只能收敛到1-最优解。在本文中,我们引入了感知延迟的单调分布式局部搜索2(LAMDLS-2),其中代理形成配对并协调双边分配替换。LAMDLS-2是单调的,收敛到一个2-最优解,并且也对消息延迟具有鲁棒性,使其适用于CA-DCOPs。我们的结果表明,在各种消息延迟情景下,LAMDLS-2比基准算法MGM-2更快地收敛到一个类似的2-最优解。
arXiv:2504.07866v2 公告类型: replace-cross
摘要:我们提出了Pangu Ultra,这是一个参数量为1350亿的大型语言模型(LLM),并在Ascend神经处理单元(NPUs)上进行了稠密Transformer模块的训练。近年来,大型语言模型领域见证了前所未有的进展,推动了LLM规模和能力的提升,但在训练如此大规模的模型时仍然面临着显著的优化和系统挑战。为了稳定训练过程,我们提出了一种深度缩放三明治归一化方法,该方法在深度模型的训练过程中有效地消除了损失峰值。我们在包含13.2万亿个多样且高质量的标记的数据集上对该模型进行了预训练,并在其后训练过程中进一步增强了其推理能力。为了高效地进行大规模训练,我们利用了8192个Ascend NPUs,并进行了系列系统优化。在多个多样化的基准测试中的评估表明,Pangu Ultra显着提升了稠密LLM(如Llama 405B和Mistral Large 2)的现有技术水平,并且甚至在具有更大量参数的稀疏模型结构中,其性能与DeepSeek-R1相当。我们的探索表明,Ascend NPUs能够高效且有效地训练具有超过100亿参数的密集模型。我们的模型和系统将提供给我们的商业客户。
arXiv:2504.07836v2 任务类型: replace-cross
摘要:视觉接地(VG)旨在基于自然语言描述在图像中定位目标对象。在本文中,我们提出了AerialVG,一个新的任务,专注于从航空视图进行视觉接地。与传统的视觉接地相比,AerialVG提出了新的挑战,例如,基于外观的接地无法区分多个视觉上相似的对象,而位置关系则应被重视。此外,现有的VG模型在应用于包含高分辨率图像的航空图像时遇到了显著的困难。为了应对这些挑战,我们介绍了第一个AerialVG数据集,包含5000张真实的航空图像、50000个手动标注的描述以及103000个对象。特别是,AerialVG数据集中的每个标注包含多个用相对空间关系标注的目标对象,要求模型进行全面的空间推理。此外,我们还提出了一个特别适用于AerialVG任务的创新模型,在该模型中设计了一个分层交叉注意力机制以关注目标区域,并设计了一个关系感知的接地模块以推断位置关系。实验结果验证了我们数据集和方法的有效性,突出了在航空视觉接地中进行空间推理的重要性。代码和数据集将被公开。
arXiv:2504.07574v2 通知类型: replace-cross
摘要:本研究探讨了人工智能辅助恶意软件分析的质量、速度和成本。它重点关注2024-2025年的Linux和物联网恶意软件,并使用了Radare2反汇编器的人工智能扩展r2ai。并非所有恶意软件和并非所有大语言模型(LLM)都是等效的,但研究表明,使用Claude 3.5和3.7 Sonnet可以取得出色的结果。尽管存在一些错误,但在AI辅助下,分析质量总体上不低于没有AI辅助的情况下。要取得良好的结果,AI不能独立运作,必须在经验丰富的分析员的持续指导下进行。在AI辅助下,速度的提高非常显著,即使考虑理解AI幻觉、夸大和省略所需的时间也是如此。通常情况下,使用AI的成本比恶意软件分析员的工资要低,但在某些情况下,当AI自然循环而没有显示进步时,需要注意和指导来控制成本。
arXiv:2504.07199v2 共享任务类型: 替换-交叉
摘要: 我们介绍了SemEval-2025 任务5: LLMs4Subjects,这是一个使用GND分类法对英语和德语的科学和技术记录进行自动主题标记的共享任务。参与者开发了基于大规模语言模型(LLM)的系统,通过定量指标(精确率、召回率、F1分数)和主题专家的定性评估来评估这些系统的推荐主题(top-k)。结果强调了大规模语言模型集合、合成数据生成和多语言处理的有效性,为在数字图书馆分类中应用大规模语言模型提供了见解。