arXiv:2504.14603v2 宣告类型: 替换
摘要: 受多模态大型语言模型(LLMs)驱动的计算机使用代理(CUAs)为通过自然语言自动化复杂桌面工作流提供了有前景的方向。然而,现有的大多数CUA仍处于概念原型阶段,受限于浅层的OS集成、基于截图的交互的脆弱性以及干扰性的执行。
我们提出了UFO2,这是一个为Windows桌面设计的多代理AgentOS,旨在将CUA提升为实用级别的系统级自动化。UFO2包括一个中央化的HostAgent用于任务分解和协调,以及一系列具备本机API、领域特定知识和统一的GUI-API动作层的应用特化AppAgent。这种架构使得任务执行变得稳健,同时保持模块化和可扩展性。UFO2采用了一种混合控制检测流水线,结合了Windows UI自动化(UIA)与基于视觉的解析,以支持多样化的界面风格。通过前瞻性的多动作规划,UFO2进一步提高了运行时效率,减少了每步骤LLM的开销。最后,UFO2还提供了一个 Picture-in-Picture (PiP) 接口,允许自动化在隔离的虚拟桌面内运行,使代理和用户能够并发操作而不会相互干扰。
我们在超过20款真实的Windows应用程序上评估了UFO2,结果显示,与之前的CUA相比,UFO2在稳健性和执行准确性方面取得了显著改进。我们的结果表明,深入的OS集成为可靠且用户对齐的桌面自动化提供了一条可扩展的道路。
arXiv:2504.14209v2 通告类型: 替换
摘要:时间序列分析在气象预报、异常检测和医疗保健等多个领域找到了广泛应用。然而,现实世界中的顺序数据常常表现出各种频率波动的叠加状态,包括小时、日和月等频率。传统的分解技术在从季节性成分中有效地分离出多种波动模式方面存在困难,这使得时间序列分析变得具有挑战性。超越现有的多周期分解范式,本文提出了一个新的视角,基于时间频谱空间内的能量分布。通过自适应地将观察序列量化为连续的频率带间隔,所提出的方法可以在不依赖领域特定先验知识的情况下重构不同周期的波动模式。基于这一创新策略,我们提出了Pets,这是一种可适应任意模型结构的增强架构。Pets 集成了一个波动模式辅助模块(FPA)和一个上下文引导的预测器混合模块(MoP)。FPA 模块通过捕捉波动模式之间的依赖关系并在每一层逐步建模这些模式,促进不同波动模式之间的信息融合。与此同时,MoP 模块利用这些复合模式表示来有层次地指导和调节不同的波动重建。在各种任务中,包括预测、插补、异常检测和分类,Pets 达到了最先进的性能,同时展现了强大的泛化能力和鲁棒性。
arXiv:2504.13146v2 宣告类型: 替换
摘要: 前沿模型生成扩展推理轨迹时,无意中生成了丰富的token序列,这些序列可以促进模型精简。认识到这一漏洞后,模型所有者可能会寻求采样策略,限制精简的有效性,而不牺牲模型性能。抗精简采样正是提供了这一能力。通过有策略地修改模型的下一个token概率分布,抗精简采样毒害了推理轨迹,使其在精简中变得显著无效,同时保留了模型的实际实用价值。更多信息,请参见 https://antidistillation.com。
arXiv:2503.21419v3 宣告类型: 替换
摘要:随着深度神经网络(DNNs)的兴起,人工智能(AI)在公共使用中达到了新的性能和普及水平。最初受到人类神经元及其连接的启发,神经网络已成为许多高级架构中AI模型的基础。然而,在DNN架构设计中,人类大脑中一些最核心的过程,尤其是神经发生、神经可塑性和更为广泛的神经凋亡,却大多被忽视。相反,当代AI开发主要集中在构建复杂的框架,如大型语言模型,这些框架在训练和推理过程中保留了神经连接的静态结构。在此背景下,我们探讨了神经发生、神经凋亡和神经可塑性如何启发未来的人工智能进步。具体来说,我们研究了人工神经网络中类似的活动,提出了“dropin”概念以类比神经发生,并回顾了“dropout”和结构修剪以类比神经凋亡。此外,我们提出将这两种机制结合在一起,以在未来“终身学习”设置中的大型神经网络中实现神经可塑性。最后,我们提倡在这一跨学科领域进行更多的研究努力,并确定了未来探索的有希望的方向。
arXiv:2502.19546v2 宣告类型: 替换
摘要: 领先的视觉-语言模型(VLMs)是在通用互联网内容上训练的,忽视了科学期刊中丰富的领域特定知识。在专门文献上进行训练可以产生高性能的任务特定工具,使生成型人工智能能够在专业出版、教育和临床任务上与通用模型相媲美。我们创建了 NeuroPubs,这是一个包含 23,000 篇神经外科出版物文章(1.34 亿词,78,000 张图/描述对)的多模态数据集。使用 NeuroPubs,VLMs 生成了可发表的图形摘要(100 个摘要中有 70%)和与人工撰写的难以区分的板式问题(89,587 个问题中有 54%)。我们使用这些问题训练了具有 340 亿参数的 CNS-Obsidian VLM。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断方面的表现与当时的最先进的 GPT-4o 模型相当(临床效用方面,40.62% 的赞同票 vs. 57.89%,p=0.1150;准确率方面,59.38% vs. 65.79%,p=0.3797)。我们的初步研究演示了如何在没有大规模互联网数据的情况下,训练专门领域期刊内容的生成型人工智能模型,从而产生高性能的学术和临床工具,并在多个领域实现领域定制化的人工智能。
arXiv:2502.17419v3 公告类型: 替换
摘要: 实现人类水平的智能需要从快速的直觉系统1向更慢的、更具斟酌性的系统2推理过渡。尽管系统1在快速、启发式的决策方面表现出色,系统2则依赖于逻辑推理以获得更准确的判断并减少偏见。基础大语言模型(LLMs)在快速决策方面表现出色,但缺乏进行复杂推理的深度,因为在系统2思考特有的逐步分析方面它们尚未充分采用。最近,如OpenAI的o1/o3和DeepSeek的R1等推理LLMs在数学和编程等领域的表现达到了专家级别的水平,紧密地模仿了系统2的审慎推理方式,并展示出了类似人类的认知能力。本文综述从基础LLMs的进步和早期系统2技术的发展开始,探讨了它们结合的方式如何为推理LLMs铺平道路。接下来,我们讨论了如何构建推理LLMs,分析了它们的特征、实现高级推理的核心方法以及各种推理LLMs的演变。此外,我们概述了推理基准,提供了代表性推理LLMs性能的深入比较。最后,我们探讨了推进推理LLMs的有希望方向,并保持了一个实时的\href{https://github.com/zzli2022/Awesome-Slow-Reason-System}{GitHub Repository}以追踪最新发展。我们希望这篇综述能成为有价值的资源,激发创新并推动这一快速演变领域的发展。
arXiv:2410.12881v2 公告类型: 替换
摘要:合成数据在增强前期训练数据质量并进而提高下游任务准确率方面在近期的大规模语言模型(LLMs)中得到了广泛应用。然而,这些方法在复杂、多跳和数学推理任务方面存在不足,因为合成数据通常无法为现有的原始语料库增加补充知识。在本文中,我们提出了一种新型的大型且多样的数学启发的合成对话(MIND)生成方法,以提高LLMs的数学推理能力。具体而言,通过MIND,我们基于OpenWebMath (OWM)生成合成对话,从而形成一个新的数学语料库,MIND-OWM。我们的实验结果显示,在不同对话设置下,融入对话参与者之间的知识差距对于生成高质量的数学数据至关重要。我们还识别出一种有效的方法,在前期训练过程中格式化和整合合成数据和原始数据,以最大化数学推理的收益,强调重构原始数据的必要性,而不仅仅是原封不动地使用。与仅使用原始数据前期训练相比,基于MIND-OWM前期训练的模型在数学推理方面显示出显著提升(GSM8K: +13.42%, MATH: +2.30%),包括在专门知识(MMLU: +4.55%, MMLU-STEM: +4.28%)和通用推理任务(GENERAL REASONING: +2.51%)中的表现更加优异。
arXiv:2408.12133v2 通知类型: 替换
摘要:城市和地域环境中的各种数据源的兴起显著促进了地理空间人工智能(GeoAI)在多种地理空间应用中的发展。然而,与地理空间对象紧密相关的地理空间数据通常表现出数据异质性,这需要专门的融合和表示策略,同时这些数据在下游任务中的标签往往显得稀疏。因此,对于能够有效利用地理空间数据而无需大量依赖于任务特定标签和模型设计的技术,出现了日益增长的需求。这种需求与自我监督学习(SSL)的原则相一致,自我监督学习因其能够直接从数据中学习有效的和泛化的表示而引起了越来越多的关注,而不需大量的成标签监督。本文综合性和与时俱进地概述了特定应用于或专门为地理空间对象开发的SSL技术,这些地理空间对象涉及三种主要的矢量几何类型:点、折线和多边形。我们系统地将各种SSL技术分为预测性和对比性方法,并分析了它们在不同类型数据上的适应性,以在各种下游任务中进行表示学习。此外,我们探讨了地理空间对象的SSL新兴趋势,特别是向地理空间基础模型的逐步进步。最后,我们讨论了当前研究中的关键挑战,并概述了未来研究有希望的方向。通过提供现有研究的结构化分析,本文旨在激发将SSL与地理空间对象集成的持续进展,并致力于长期发展地理空间基础模型。
arXiv:2406.00415v3 宣传类型:替换
摘要:尽管已经进行了几项专门针对车辆路线问题(VRPs)的神经组合优化(NCO)求解器的调查,但这些调查并未涵盖最近出现的最先进的(SOTA)NCO求解器。更为重要的是,为了建立一个全面且最新的NCO求解器分类法,我们系统地回顾了相关出版物和预印本,将它们归类为四类不同的类型,即学习构建、学习改进、预测一次的学习以及预测多次的学习求解器。随后,我们指出了SOTA求解器存在的不足,包括泛化能力差、无法解决大规模VRPs、无法同时解决大多数VRP变体、难以将这些NCO求解器与传统运筹学算法进行比较。同时,我们讨论了正在进行的努力,指出存在的不足,并提出了克服这些不足的有前途的可行方向。有趣的是,现有的努力仅关注这些不足之一,没有一项尝试同时解决所有问题。此外,我们跨越不同规模的VRPs,比较了代表性的强化学习、监督学习和无监督学习范式下的NCO求解器的性能。最后,在提出的新分类法下,我们提供了一个 accompanying 网页作为NCO求解器的实时资源库。通过这份调查和实时资源库,我们旨在推动NCO社区的进一步发展。
arXiv:2504.18538v1 宣告类型: cross
摘要:模仿学习有望通过从专家演示中学习来使机器人具备多功能技能。然而,基于有限数据集训练的策略往往难以泛化到训练分布之外。在这项工作中,我们从信息理论和数据分布特性出发,提供了一种统一的观点来阐述模仿学习的泛化能力。我们首先表明,泛化差距可以通过以下两方面进行上限约束:(i) 中间表示的条件信息瓶颈 (ii) 模型参数与训练数据集之间的互信息。这种表征为模仿学习中有效的训练策略设计提供了理论指导,尤其是在确定是否冻结、微调或从头训练大型预训练编码器(例如视觉-语言模型或视觉基础模型)以实现更好的泛化时。此外,我们证明了从输入到输出的高条件熵会诱导更平坦的似然景观,从而降低泛化差距的上限。此外,这缩短了从尖锐局部极小值逃脱随机梯度下降 (SGD) 的时间,这可能在固定优化预算下增加达到全局极值的可能性。这些见解解释了为什么模仿学习往往在泛化方面表现出局限性,并强调了不仅仅扩大输入数据多样性的必要性,同时也需要在相同的输入下丰富输出标签的变异性的重要性。