arXiv:2504.12309v1 宣告类型: cross
摘要: 从2000年到2015年,联合国千年发展目标指导着全球优先事项。随后的可持续发展目标(SDGs)采取了更具动态性的方法,每年更新指标。随着2030年的临近,进步迟缓,创新加速策略至关重要。本研究开发了一个基于AI的知识图系统,用于分析SDG间的相互联系,发现潜在的新目标,并在线上进行可视化展示。通过使用官方SDG文本、Elsevier的关键词数据集以及2020-2023年的1,127个TED演讲稿(共计269个演讲),对2023年的演讲进行试点研究,应用AI推测设计、大型语言模型和检索增强生成。关键发现包括:(1)热图分析显示,目标10和目标16之间存在强烈关联,而目标6的覆盖率最低。(2)在知识图中,模拟的对话随着时间的推移揭示了新的中心节点,展示了更加丰富数据如何支持发散思维和目标清晰度。(3)提出了六个潜在的新目标,主要集中在公平性、韧性和技术驱动的包容性。这种推测性AI框架为政策制定者提供了新的见解,并为未来的多模态和跨系统SDG应用奠定了基础。
arXiv:2504.13171v1 宣告类型: 新
摘要: 扩大量化推理计算已成为使大规模语言模型 (LLMs) 能够解决复杂问题的关键因素,但这会带来高延迟和推理成本。我们引入了“睡眠时间”计算,这使模型能够在提出查询之前“在线”考虑上下文:通过预测用户可能会问什么问题并预先计算有用的量,我们可以在推理时大大减少计算需求。为了证明我们方法的有效性,我们对两个推理任务ystateful GSM-Symbolic 和 Stateful AIME进行了修改版本。我们发现,“睡眠时间”计算可以将达到相同准确性的推理时间计算量减少约 5 倍,在 Stateful GSM-Symbolic 中减少幅度为 5 倍,在 Stateful AIME 中减少幅度为 5 倍。此外,我们引入了 Multi-Query GSM-Symbolic,这是通过每个上下文包含多个相关查询来扩展 GSM-Symbolic 。通过使用 Multi-Query GSM-Symbolic 在相同上下文中对相关查询进行“睡眠时间”计算的分摊,我们可以将每查询的平均成本降低 2.5 倍。然后,我们进行额外的分析以了解“睡眠时间”计算何时最有效,发现用户查询的可预测性与“睡眠时间”计算的有效性高度相关。最后,我们对将“睡眠时间”计算应用于现实中的代理性软件工程师 (SWE) 任务进行了案例研究。
arXiv:2504.13150v1 责任公告类型: 新
摘要:创建负责任的人工智能(AI)系统是当前AI研究和开发中的一个重要问题。负责任的AI系统的一个特征是其可解释性。在本文中,我们对可解释深度学习(XDL)系统感兴趣。基于对物理对象的数字孪生的创建,我们提出了一种为不可解释的深度学习模型创建可读孪生(以不精确信息流模型的形式)的想法。从深度学习模型(DLM)转换为不精确信息流模型(IIFM)的完整过程被提出。提出的办法通过使用MNIST数据集中的手写数字图像识别的深度学习分类模型的例子进行了说明。
arXiv:2504.13146v1 宣告类型: 新
摘要: 前沿模型生成扩展推理轨迹时无意中产生了丰富的token序列,这些序列可以促进模型蒸馏。认识到这一漏洞,模型所有者可能会寻求一些采样策略,这些策略可以限制蒸馏的有效性,而不损害模型的性能。\emph{反蒸馏采样}提供了这种能力。通过战略性地修改模型的下一个token概率分布,反蒸馏采样污染了推理轨迹,使其在蒸馏方面的有效性显著降低,同时保持模型的实际用途。有关更多信息,请参见 https://antidistillation.com。
arXiv:2504.13145v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在作为代理执行任务方面展现了巨大的潜力,特别是在需要多轮推理和交互的任务中表现出色。拒绝采样微调(RFT)已成为一种有效的微调LLMs作为代理的方法:它首先模仿专家生成的成功轨迹,并通过在成功且由代理自动生成的轨迹上进行迭代微调进一步提高代理技能。然而,由于专家(例如,GPT-4)主要在简单的子任务上成功,而RFT本身倾向于简单场景,许多复杂的子任务仍然无法解决且持续处于分布外(ODD)。在调查这些具有挑战性的子任务时,我们发现,之前失败的专家轨迹往往可以提供有价值的信息,例如计划和关键操作,这些信息可以显著提高代理探索效率和掌握关键技能的能力。受这些观察的启发,我们提出了探索专家失败(EEF)方法,该方法从失败的专家轨迹中识别有益的动作,并将其整合到训练数据集中。潜在有害的动作被仔细排除,以防止污染模型的学习过程。通过利用专家失败中有益的动作,EEF成功解决了部分之前无法解决的子任务,并提高了代理微调性能。值得一提的是,我们的方法在WebShop中的获胜率为62%,优于RFT(53.6%)和GPT-4(35.6%),据我们所知,这不仅创下了新的最佳状态,还首次在WebShop中将得分超过0.81超越了RFT,并且在SciWorld中超过了81。
arXiv:2504.13032v1 通知类型: 新
摘要: recently在大型语言模型(LLMs)方面取得的进展使它们得以作为规划复杂任务的代理使用。现有的方法通常依赖于思考-行动-观察(TAO)过程来增强LLM的性能,但这些方法往往受限于LLMs对复杂任务的有限知识。检索增强生成(RAG)通过利用外部数据库来利用检索到的信息进行生成,提供了新的机会。在本文中,我们识别了将RAG应用于任务规划的两个关键挑战(可扩展性和可迁移性)。我们提出了InstructRAG,这是一种在多智能体元增强学习框架内的新解决方案,以解决这些挑战。InstructRAG 包括一个图来组织过去指令路径(正确行动的序列),一个使用强化学习的RL-Agent 扩展图的覆盖范围以实现可扩展性,以及一个使用元学习的ML-Agent 提高任务泛化以实现可迁移性。两个智能体端到端地进行训练以优化整体规划性能。我们在四个广泛使用的任务规划数据集上的实验表明,InstructRAG 显著提高了性能并能够高效地适应新任务,相对于现有最佳方法实现了多达19.2%的性能提升。
arXiv:2504.12682v1 宣告类型: 新颖
摘要: 最近的网络代理研究主要集中在导航和交易任务上,对大规模提取结构化数据的关注较少。本文介绍了WebLists,这是一个针对四个常见商务和企业用例的200个数据提取任务基准。每个任务都需要代理导航到网页,对其进行适当配置,并提取具有明确模式的完整数据集。我们展示了在问答任务上表现更好的LLM搜索代理和最新网页代理在这类任务上的召回率分别为3%和31%。
为应对这一挑战,本文提出了一种名为BardeenAgent的新颖框架,该框架使网络代理能够将其执行转换为可重复的程序,并在具有相似结构的页面上大规模重放。BardeenAgent也是首款利用HTML规律结构的LLM代理。具体而言,BardeenAgent构建了一个可泛化的CSS选择器,以捕获页面上的所有相关信息,然后调整操作以提取数据。
在WebLists基准上,BardeenAgent的总体召回率为66%,超过翻倍了最新网页代理的表现,并将每行输出的成本降低了3倍。
arXiv:2504.12680v1 通知类型: 新
摘要: 人类可以从顺序的视觉观察中感知和推理空间关系,例如,第一人称视频流。然而,预训练模型是如何获得这些能力,尤其是高级推理能力,仍然不清楚。本文引入了Embodied-R,这是一种结合大规模视觉-语言模型(VLMs)进行感知和小规模语言模型(LMs)进行推理的协作框架。通过考虑思考-答案逻辑一致性的新颖奖励系统与强化学习(RL)相结合,该模型在有限的计算资源下实现了慢思考能力。经过在仅5000个具身视频样本上的训练后,Embodied-R结合一个3B LMs在分布内和分布外的具身空间推理任务上达到了与最先进的多模态推理模型(OpenAI-o1, Gemini-2.5-pro)相当的性能。此外,Embodied-R展示了诸如系统分析和上下文集成等新兴的思考模式。我们进一步探索了包括响应长度、在VLM上的训练、奖励设计策略以及SFT(监督微调)和RL训练后模型泛化的差异等研究问题。
arXiv:2504.12612v1 宣告类型: 新
摘要: 起源是指事物的时间顺序,与揭示起因、追踪联系以及在空间和时间的流中定位实体的基本追求相呼应。随着人工智能朝着能够进行交互协作完成复杂任务的自主代理方向发展,生成内容的起源变得与集体创作中的相互作用紧密交织在一起,在这种相互作用中,贡献内容不断被修订、扩展或覆盖。在多代理生成链中,内容经历了一系列的转变,通常没有或几乎没有表明先前贡献的痕迹。在这项研究中,我们探讨了跨生成时间维度追踪多代理起源的问题。我们提出了一种仅依靠内容而不依赖于内部记忆状态或外部元信息的后验生成历史的时间系统。其核心是符号编年史的概念,它表示带签名和时间戳的记录,类似于法医学中的证据链的过程。该系统通过反馈循环运作,即在生成的每一时间段中,更新先前交互的编年史,并在生成过程中同步合成内容。这项研究旨在在不断演化的网络生态系统中发展一种可追溯的协作人工智能形式。
arXiv:2504.12562v1 Announce Type: 新
摘要:传统上评估大语言模型(LLMs)的能力依赖于静态基准数据集、人类评估或基于模型的评估方法,这些方法常常会遭受过拟合、成本高昂和偏见的问题。ZeroSumEval 是一种新颖的比赛式评估协议,利用零和博弈来评估 LLMs,并使用动态基准避免饱和。ZeroSumEval 涵盖了一系列多样的游戏,包括安全挑战(PyJail)、经典游戏(国际象棋、骰子赌局、扑克)、知识测试(MathQuiz)和说服挑战(Gandalf、辩论)。这些游戏旨在评估多种 AI 能力,如战略推理、计划、知识应用和创造力。基于近期研究表明基于游戏的评估对 LLMs 的有效性,ZeroSumEval 通过提供标准化和可扩展的框架来改进这些方法。为展示这一点,我们在7款游戏和13个模型上进行了多次实验,超过7000次模拟。结果显示,尽管 GPT 和 Claude 家族的前沿模型可以玩常见的游戏和回答问题,但在需要提出新颖且富有挑战性的问题的游戏上,它们却表现不佳。我们还观察到,模型无法可靠地相互越狱,并在需要创造力的任务上普遍失败。我们已将代码发布在 https://github.com/facebookresearch/ZeroSumEval。