arXiv:2503.23350v2 更新类型: 替换
摘要:随着网络技术的进步,它们已经显著地改变了人们生活的各个方面。尽管网络的重要性不言而喻,但其中许多任务是重复性和耗时的,对整体生活质量产生负面影响。为了高效处理这些日常琐事,最有可能的方法之一是利用人工智能(AI)技术来推进自主代理,被称为AI代理,因为它们可以在疲劳或性能下降的情况下连续运行。在网络的背景下,利用被称为Web_agents的AI代理自动帮助人们处理日常琐事可以显著提高生产力和效率。最近,包含数十亿参数的大型基础模型(LFMs)展示了人类般的语言理解和推理能力,显示出在完成各种复杂任务方面的熟练度。这自然引发了这样的问题:`大型基础模型能否被利用来开发强大的AI代理来自动处理网络任务,为用户提供显著的便利?`为了充分探索大型基础模型的潜力,针对根据用户指令完成日常网络任务的Web_agents研究出现了广泛的研究,显著增强了日常生活的便利性。在这篇综述中,我们全面回顾了Web_agents在三个方面已经存在的研究:架构、训练和可信度。此外,还探讨了对未来研究的一些有希望的方向,以提供更深入的见解。
arXiv:2503.21138v4 评价类型: 更新
摘要: 为了减少代理实验评估的成本,我们引入了对小型代理的评价计算理论:构建评价模型以加速评价过程。我们证明了给定评价模型的泛化误差和因果效应泛化误差的上界,适用于无限多个代理。我们还证明了通过预测,由部署代理到评价指标估计因果效应的效率和一致性。为了学习评价模型,我们提出了一种元学习器来处理异构代理空间问题。与现有的评估方法相比,我们的(条件)评价模型在包括个体药物、科学模拟、社会实验、商业活动和量子交易在内的12个场景中将评估误差减少24.1%至99.0%。相对于实验或模拟,每次主题的评估时间减少了3到7个数量级。
arXiv:2503.18938v2 宣告类型: 替换
摘要:世界模型旨在学习受行动控制的未来预测,并已被证明对于智能代理的发展至关重要。然而,现有的大多数世界模型严重依赖大量的带有动作标签的数据以及昂贵的训练过程,使得通过有限的交互适应具有异质动作的新环境变得具有挑战性。这一限制可能会阻碍它们在更广泛的领域中的应用。为克服这一限制,我们提出了一种名为AdaWorld的创新世界模型学习方法,以实现高效的适应。核心思想是在世界模型的预训练阶段融入动作信息。这通过自监督的方式从视频中提取潜在动作,捕捉帧之间的最关键转换来实现。然后,我们开发了一种基于这些潜在动作的自回归世界模型。这种学习范式使得世界模型具有高度的适应性,即使在有限的交互和微调的情况下,也能高效地转移和学习新的行动。我们在多个环境的全面实验中表明,AdaWorld 在仿真质量和视觉规划方面都达到了 superior 的性能。
arXiv:2503.15752v4 公告类型: 替换
摘要: 人工智能提供了一种新的工具,用于破解人类行为背后的动机。通过改变对大规模语言模型的提示,我们可以在各种经典经济游戏的不同情景中诱发出人类行为的整个范围。通过分析哪些提示引发了哪些行为,我们推断(破解)了这些人类行为背后的动机。我们还展示了如何通过分析提示来揭示经典经济游戏之间的关系,从而深入了解不同的经济情景是如何让人们产生思考的。我们还展示了这一破解过程如何用于理解不同人群在行为倾向上的差异。我们展示了人工智能如何提供一种新的方法来考察产生不同行为的思维和框架。
arXiv:2502.14581v2 宣告类型: 代替
摘要:经验性的人工智能对齐旨在使人工智能系统的行为与观察到的人类行为一致。虽然其目标高尚,但我们认为经验性对齐可能会无意中引入统计偏差,这值得我们谨慎对待。因此,这篇立场论文反对简单的经验性对齐,建议采用规范性对齐和后验经验性对齐作为替代方案。我们通过以人类为中心的语言模型解码等具体例子来证明我们的原则性论点。
arXiv:2502.12275v2 通告类型:替换
摘要:本文介绍了ExKLoP,一个新颖的框架,旨在评估大型语言模型(LLMs)如何有效地将专家知识整合到逻辑推理系统中。这种能力在工程领域尤为重要,其中专家知识,如制造商推荐的操作范围,可以直接嵌入到自动监控系统中。通过镜像专家验证步骤,如范围检查和约束验证等任务有助于确保系统的安全性和可靠性。我们的方法系统地评估了LLM生成的逻辑规则,评估这些关键验证任务中的句法流畅性和逻辑正确性。我们还通过基于代码执行结果的迭代反馈环探索了模型的自我纠正能力。ExKLoP提供了一个可扩展的数据集,包含130个工程前提条件,950个提示和相应的验证点。它允许进行全面基准测试,同时对任务复杂性和实验可扩展性进行控制。我们利用合成数据创建方法对包括Llama3、Gemma3、Codestral和QwenCoder在内的多种LLM进行了广泛的实证评估。结果表明,大多数模型生成了几乎完美的句法正确代码,并且在将专家知识转换为正确代码方面表现出很强的能力。同时,尽管大多数LLM产生近乎完美的句法输出,但在正确实现逻辑规则方面的能力和自我改进的能力各不相同。总的来说,ExKLoP作为一个 robust 的评估平台,简化了选择适合自我纠正系统的有效模型的过程,并明确界定了遇到的错误类型。
arXiv:2502.10931v2 宣告类型:替换
摘要:大语言模型(LLMs)在网络安全领域被用于自主安全分析或渗透测试。夺旗挑战(Capture the Flag, CTF)比赛作为评估LLM代理在网络安全任务规划能力的基准。早期尝试使用LLMs解决CTF挑战的方法使用了单机体系统,其中反馈仅限于一个推理-行动循环。这种方法对于复杂的CTF任务来说是不足够的。受到真实世界CTF比赛的启发,其中专家团队合作,我们引入了D-CIPHER LLM多代理框架,用于协作CTF解决。D-CIPHER将具有不同角色的代理与动态反馈循环相结合,以增强复杂任务的推理能力。它引入了由总体问题求解规划代理与多个异构执行代理组成的规划者-执行者代理系统,这些执行代理能够为各个任务分配任务,从而实现代理间责任的有效分配。此外,D-CIPHER还集成了一个自动提示生成器代理,通过自动生成与问题高度相关的初始提示来改进问题求解能力。我们通过全面的研究,将D-CIPHER在多个CTF基准和LLM模型上进行评估,以突出我们改进的影响。此外,我们手动将NYU CTF基准中的CTF映射到MITRE ATT&CK技术,以便对D-CIPHER的进攻性安全能力进行全面评估。D-CIPHER在三项基准测试中取得了最先进的性能:在NYU CTF Bench上的得分为22.0%,在Cybench上的得分为22.5%,在HackTheBox上的得分为44.0%,相对于之前的成果,分别提高了2.5%至8.5%。D-CIPHER相比之前的成果解决了65%更多的ATT&CK技术,展示了更强的进攻性能力。
arXiv:2502.06655v2 宣布类型: 替换
摘要:基准污染已成为LLM评估社区中的一个重大关注点。此前的Agent-as-an-Evaluator方法通过让代理参与问题生成来解决这一问题,尽管这些方法取得了成功,但Agent-as-an-Evaluator方法中的偏见仍然很大程度上未被探索。在本文中,我们提出了一种评估偏见的理论公式,为设计无偏评估协议提供了宝贵的见解。此外,我们通过精心设计的探针任务,在最小的Agent-as-an-Evaluator设置中识别出两种类型的偏见。为解决这些问题,我们提出了无偏评估者,这是一个能提供更全面、无偏且可解释的LLM评估协议的方案。广泛的实验揭示了当前LLM在改进方面有很大的空间。此外,我们还证明了无偏评估者不仅提供了基准污染的有力证据,还能提供可解释的评估结果。
arXiv:2501.19112v2 宣告类型: 更换
摘要:本文从逻辑模态的角度对《欧洲人工智能法案》进行了全面分析,旨在为其正式表示做准备,例如在逻辑多元化的知识工程框架和方法(LogiKEy)中。LogiKEy 基于形式方法开发了基于逻辑的计算工具,采用高级逻辑(HOL)作为统一的元逻辑,通过浅层语义嵌入来整合多种逻辑。这种整合借助了 Isabelle/HOL,这是一个配备了多种自动定理证明器的证明助手工具。文中讨论了《人工智能法案》中的模态及其表示所适用的逻辑。对于这些逻辑中的一小部分,创建了在 HOL 中的嵌入,然后使用这些嵌入对样本段落进行编码。初步实验评估了这些嵌入在自动推理方面的适用性,并指出了通往更稳健推理能力过程中的关键挑战。
arXiv:2501.18009v2 宣告类型:替换
摘要:大型语言模型(LLMs)已经发展出了许多认知能力。尽管许多基准测试评估了它们的智能水平,但对其探索能力的关注却很少,而探索能力对于在自然和人工系统中发现新信息并适应新环境是至关重要的。LLMs 在有效探索方面,特别是在开放式任务中,其潜力仍然不清楚。这项研究考察了LLMs是否能在开放式任务中超越人类的探索能力,使用 Little Alchemy 2 作为范例,其中代理将元素组合以发现新的元素。结果表明,大多数LLMs的表现不如人类,除了o1模型,传统的LLMs主要依赖于不确定性驱动的策略,而人类则在不确定性与赋能之间保持平衡。结果显示,传统的以推理为重点的LLMs,如GPT-4o,展示了显著更快且更细致的推理过程,限制了它们的探索表现。相比之下,DeepSeek推理模型展示了延长的、迭代的思维过程,标有重复分析组合及以往试验的特点,反映出一种更为彻底且人类似乎的探索策略。通过对模型的表示性分析得出,不确定性与选择在较早的变换器块中得到表示,而赋能值则在较晚的阶段处理,导致LLMs思考过快并做出过早的决定,阻碍了有效的探索。这些发现揭示了LLMs探索能力的局限性,并指明了提高其适应性的方向。