arXiv:2504.03160v2 宣告类型: 替换
摘要:配备网络搜索能力的大语言模型(LLMs)在深度研究任务中展示了出色的潜力。然而,当前的方法主要依赖于人工工程化提示(提示工程化方法)且表现脆弱,或者在受控的检索增强生成(RAG)环境中使用强化学习(RAG方法),这种方法无法捕捉到真实世界交互的复杂性。在本文中,我们引入了DeepResearcher,这是首个通过在真实世界环境中使用强化学习(RL)来训练基于大语言模型的端到端深度研究代理的全面框架,该框架包含真实的网络搜索交互。不同于RAG方法假设所有必要信息都存在于固定语料库中的做法,我们的方法训练代理以应对开放网络的嘈杂、非结构化和动态特性。我们实现了一个专门的多代理架构,其中浏览代理从各种网页结构中提取相关信息并克服了重大技术挑战。在开放领域的研究任务上的广泛实验表明,DeepResearcher相对于基于提示工程化的方法提高了28.9分,相对于基于RAG的RL代理提高了7.2分。我们的定性分析揭示了端到端RL训练中出现的认知行为,包括制定计划的能力、从多个来源验证信息的能力、进行自我反思以重新定向研究的能力以及在无法找到确切答案时保持诚实的能力。我们的结果表明,端到端在真实世界网络环境中的训练不仅是实现细节,而是开发与实际应用相一致的强大研究能力的基本要求。我们已将DeepResearcher发布在https://github.com/GAIR-NLP/DeepResearcher。
arXiv:2504.02701v2 宣告类型: 替换
摘要:随着人工智能的发展,需要更广泛的共识来确定研究优先级。本研究探讨了有害人工智能,并通过利用可持续发展目标(SDGs)和可解释性技术提供指导。目标是更有效地确定优先级,以平衡社会利益与风险。本研究中评估的两种有害人工智能形式是漏洞检测代理,它们解决夺旗挑战,以及人工智能驱动的恶意软件。
arXiv:2504.01848v3 评价类型: 替换
摘要: 我们引入了PaperBench,这是一个基准测试,评估AI代理复制最先进的AI研究成果的能力。代理必须从零开始复制20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库以及成功执行实验。为了进行客观评估,我们开发了一套等级体系,将每个复制任务逐级分解为更小的子任务,并明确评分标准。总共,PaperBench包含了8,316个可单独评分的任务。等级体系与每篇ICML论文的作者共同开发,以确保准确性和现实性。为了实现可扩展的评估,我们还开发了一个基于LLM的评审员,自动根据等级体系评估复制尝试,并通过为评审员开发一个单独的基准测试来评估评审员的性能。我们在PaperBench上评估了几种前沿模型,发现经过测试的最佳代理Claude 3.5 Sonnet(开源架构)的平均复制得分为21.0%。最后,我们招募了顶级ML博士尝试PaperBench的一部分,发现模型目前仍无法超越人类基线。我们开源了我们的代码(https://github.com/openai/preparedness),以促进对AI代理AI工程能力未来研究的便利。
arXiv:2503.23633v3 宣告类型: 替换
摘要:生成性AI的出现,特别是大型语言模型(LLMs),为地理信息的表示和计算开辟了新的途径,并超越了地理知识生产的流程,推动地理信息系统(GIS)向自主型GIS转变。利用LLMs作为决策核心,自主型GIS可以独立生成和执行地理处理工作流,进行空间分析。在本文中,我们进一步阐述了自主型GIS的概念,并提出了一个概念框架,定义了其五个自主目标、五个自主级别、五个核心功能和三个操作规模。我们通过四个概念性的GIS代理展示了自主型GIS如何执行空间数据检索、空间分析和制图。最后,我们确定了关键的挑战和未来研究方向,包括微调和自我增长的决策核心、自主建模以及研究自主GIS的社会和实践影响。通过在GISci领域建立范式转变的基础,本文展望了一个未来,其中GIS超越传统的工作流,自主地进行推理、推导、创新和推进解决紧迫的全球挑战的空间解决方案。随着我们设计和部署越来越智能的地理信息系统,我们应该确保它们以负责任的方式来发展,服务于公共利益,并支持在AI增强未来中人类地理见解的持续价值。
arXiv:2503.21668v2 更新类型: 修订
摘要: 我们世界模型的核心组件之一是“直觉物理”——对物体、空间和因果关系的理解。这种能力使我们能够预测事件、制定行动计划并导航环境,所有这些都需要一种综合的物体概念。尽管其重要性不言而喻,但物体概念尚无单一、统一的解释,尽管有多个理论框架提供了洞见。在本文的第一部分中,我们概述了物体概念研究中的主要理论框架——格式塔心理学、践行认知和发展心理学——并确定了每种框架归因于物体理解的核心能力以及它们在塑造生物体世界模型方面的功能性角色。鉴于物体概念在世界建模中的基础性作用,理解物体概念对人工智能也同样重要。在本文的第二部分中,我们评估了当前的人工智能范式如何处理和测试与认知科学中物体概念相关的技能。我们定义一个人工智能范式为物体概念的构想方式、研究物体概念的方法、使用的数据以及评估技术的组合。我们发现,虽然基准测试可以检测到人工智能系统模拟物体概念的孤立方面,但这些基准测试无法检测到当人工智能系统在这些能力之间缺乏功能整合时的情况,不能完全解决物体概念的挑战。最后,我们探索了与本文中概述的综合物体概念愿景相一致的新颖评估方法。这些方法是朝着在现实世界情境中实现具有真正物体理解的通用人工智能的孤立物体能力的前景候选人。
arXiv:2503.19584v3 更新通知类型: 替换
摘要:本文介绍了一种多代理应用系统,旨在提高办公室协作效率和工作质量。该系统集成了人工智能、机器学习和自然语言处理技术,实现了任务分配、进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化协作支持,并集成数据分析工具以提高决策质量。此外,本文提出了一个分离计划与求解器的智能代理架构,并通过多轮查询重写和业务工具检索等技术,增强了代理的多意图和多轮对话能力。文中还详细介绍了在办公室协作场景中工具和多轮对话的设计,并通过实验和评估验证了系统的有效性。最终,该系统在实际商业应用中表现出色,特别是在查询理解、任务规划和工具调用方面。展望未来,该系统有望在动态环境中复杂交互问题和大规模多代理系统中发挥更加重要的作用。
arXiv:2503.18666v2 宣布类型: 替换
摘要:基于大语言模型(LLM)的代理正越来越多地部署到各种领域,自动化复杂决策和任务执行。然而,它们的自主性引入了安全风险,包括安全漏洞、法律违规和意外有害行为。现有的缓解方法,如基于模型的安全措施和早期执行策略,在鲁棒性、可解释性和适应性方面存在不足。为了解决这些挑战,我们提出了AgentSpec,这是一种轻量级的领域特定语言,用于在LLM代理上指定和执行运行时约束。通过AgentSpec,用户可以定义结构化的规则,这些规则包含触发器、谓词和执行机制,以确保代理在预定义的安全边界内运行。我们跨多个领域实现了AgentSpec,包括代码执行、具身代理和自动驾驶领域,展示了其适应性和有效性。我们的评估表明,AgentSpec成功阻止了90%以上代码代理案例中的不安全执行,消除了所有具身代理任务中的有害行为,并强制100%的自动驾驶车辆(AVs)遵守规定。尽管AgentSpec提供了强大的安全保证,但在计算上仍然轻量级,开销在毫秒级别。通过结合可解释性、模块化和效率,AgentSpec为在各种应用中强制执行LLM代理安全提供了一种实用且可扩展的解决方案。我们还使用LLMs自动生成规则,并评估其有效性。我们的评估表明,由OpenAI生成的规则在具身代理中的精确度为95.56%,召回率为70.96%,成功识别了87.26%的风险代码,并在8种情景中的5种情况下阻止了AVs违法。
arXiv:2503.15752v3 通知类型: 重置
摘要:人工智能提供了一种新的工具,用于解析人类行为背后的动机。我们展示了通过调整大型语言模型的提示,可以在不同的经典经济游戏中诱导出一系列人类行为。然后通过分析诱导不同行为所需的提示,我们可以推测(解析)人类行为背后的动机。我们还展示了如何通过分析这些提示来揭示经典经济游戏之间的关系,提供新的见解,说明不同的经济场景会促使人们思考哪些不同的问题。我们还展示了这种解析过程如何用于理解不同人群的行为倾向差异。
arXiv:2503.07202v2 宣告类型: 替换
摘要:零样本学习(ZL)对于涉及未见类别的任务至关重要,例如自然语言处理、图像分类和跨语言迁移。当前的应用往往无法准确推断和处理涉及未见类别的新关系或实体,严重限制了它们在开放域场景中的可扩展性和实用性。在多模态知识图谱(MMKG)嵌入表示学习中,ZL 学习面临着有效转移未见类别语义信息的挑战。在本文中,我们提出了一种使用大型语言模型(LLMs)进行 MMKG 零样本嵌入学习的框架 ZSLLM。我们利用未见类别的文本模态信息作为提示,充分利用 LLM 的推理能力,使不同模态之间能够传递未见类别的语义信息。通过基于模型的学习,增强 MMKG 中未见类别的嵌入表示。在多个真实世界数据集上的广泛实验表明,与最先进的方法相比,我们的方法具有明显的优势。
arXiv:2502.10428v4 宣告类型: 替换
摘要: 为了降低由计算冗余和延迟奖励分配在长CoT过程中引起的计算资源成本和消耗,本研究提出了具有自适应推理时间和步骤的动态链式思考(D-CoT)。研究人员通过使用Python 3.13 IDLE结合基于GPTs的Python仿真器来模拟D-CoT的集成。同时,研究人员使用DeepSeek R1作为对照组,测试并比较了D-CoT仿真器在处理MIT OpenCourseWare线性代数考试问题时的性能。实验结果表明,与基于长时间CoT的DeepSeek R1相比,D-CoT在推理时间、CoT长度(推理步骤)和标记计数三个方面表现更优,实现了计算资源消耗的显著减少。此外,本研究在深度推理优化方面具有潜在价值,并可作为未来动态深度推理框架的参考。