arXiv:2502.11312v1 宣称类型: 新
摘要:本文提出人工智能(AI)经历了几个重叠的世代:AI 1.0(信息型AI)、AI 2.0(代理型AI)、AI 3.0(物理型AI),现在则推测一个可能的AI 4.0(意识型AI)。这些AI世代是由算法、计算能力和数据之间不断变化的优先级驱动的。AI 1.0 引入了模式识别和信息处理的突破性进展,推动了计算机视觉、自然语言处理和推荐系统的进步。AI 2.0 基于这些基础,通过在数字环境中进行实时决策,利用强化学习和自适应规划实现了代理型AI应用。AI 3.0 将智能扩展到物理环境,结合了机器人技术、自动驾驶车辆和传感器融合的控制系统,以在不确定的现实环境中行动。在此基础上,AI 4.0 提出了自我导向AI的雄心壮志,这种AI能够设定自己的目标,协调复杂的训练程序,甚至可能表现出机器意识的元素。本文追溯了大约70年的人工智能历史基础,映射了从算法创新到高性能计算再到专门化数据中的技术瓶颈变化,如何推动每个世代的飞跃。此外,文章还强调了AI 1.0、2.0、3.0和4.0之间的持续协同作用,并探讨了当人工智能系统接近(或追求)人类自主性时出现的深刻伦理、监管和哲学挑战。最终,理解这些演变及其相互依存关系对于指导未来的研究、制定负责任的治理以及确保人工智能的变革潜力惠及社会全体成员至关重要。
arXiv:2502.11304v1 通知类型: 新
摘要:一种稳健且高效的交通监控系统对于智慧城市和智能交通系统(ITS)至关重要,它利用传感器和摄像头追踪车辆移动、优化交通流量、缓解交通拥堵、提升道路安全并实现实时自适应交通控制。交通监控模型必须全面理解动态城市状况,并提供直观的用户界面以促进有效的管理。本研究利用LLaVA视觉定位多模态大语言模型(LLM)在实时Quanser Interactive Lab仿真平台上进行交通监控任务,涵盖了交叉口、拥堵和碰撞等场景。位于城市多个位置的摄像头收集实时仿真图像,并将这些图像与查询一起输入到LLaVA模型中进行分析。集成到摄像头中的实例分割模型突出显示关键元素,如车辆和行人,以提高训练效率和吞吐量。该系统在识别车辆位置方面实现了84.3%的准确率,在确定转向方向方面实现了76.4%的准确率,优于传统模型。
arXiv:2502.11295v1 宣告类型: 新文章
摘要: 本文的目标是开发一种机制,使给定的组织战略计划能够抵御竞争对手代理(负面环境行为)的行动。我们假设给定了一个目标树,表示战略目标(也可以被视为软件系统的业务需求),并假设竞争对手代理以最大化敌对的方式行事(反对我们的子目标或一般目标)。我们使用游戏树搜索方法(如 minimax)来选择一个最优的执行策略(在给定时间点),以最大化我们实现(高层)战略目标的可能性。我们的机制帮助我们确定应遵循哪条路径(策略选择),以实现最佳的最终结果。这通过比较通过评估函数可用的替代执行策略来完成。我们的评估函数基于这样的想法:通过选择使我们对竞争对手代理的敌对行动最不脆弱的执行策略,使执行计划具有前瞻性。即我们选择一个执行策略,使其对对手造成妨碍/损害到我们的业务目标/计划的余地或选项最少。
arXiv:2502.11291v1 信息类型: 新增
摘要: 在知识库(KBs)中解释容错推理问题是人工智能(AI)领域的一个重要话题。尽管已有部分相关研究,但现有方法提供的解释往往缺乏关键信息,或在处理非二元冲突时不够表达性强。在本文中,我们指出了现有最佳方法的结构弱点,并提出了一种通用的基于论辩的方法来解决这些问题。这种方法定义了涉及最大一致子集推理的形式化逻辑,并展示了如何将任何这样的逻辑翻译为论辩。我们的工作提供了作为辩证证据过程的对话模型,用于根据容错语义计算和解释查询答案。这使我们能够构建论辩证明树作为解释,这些解释比现有解释形式化语言更具表达性和直观性。
arXiv:2502.11269v1 通知类型: 新
摘要: 神经符号人工智能(NSAI)通过结合深度学习处理大规模和非结构化数据的能力以及符号方法的结构化推理,代表了人工智能领域的变革性方法。通过充分发挥各自的优势,NSAI增强了泛化能力、推理能力和可扩展性,同时解决了透明度和数据效率等关键挑战。本文系统研究了多种NSAI架构,强调了它们将神经网络和符号组件整合的独特方法。研究分析了当前人工智能技术,如检索增强生成、图神经网络、强化学习和多智能体系统与NSAI范式的对齐情况。然后,根据包括泛化能力、推理能力、迁移能力和可解释性在内的全面标准,评估了这些架构,从而提供了对它们各自的优点和局限性的比较分析。值得注意的是,Neuro > Symbolic < Neuro 模型在所有评估指标中始终表现出色。这一结果与最新研究中强调此类架构在利用多智能体系统等先进技术方面的有效性一致。
arXiv:2502.11251v1 通告类型: 新
摘要:知道真相通常还不够——我们还寻求寻找该事实为什么为真的理由。尽管我们对解释偶然真相的方法有很多了解,但我们对解释那些作为逻辑必然性的真理的事实了解得较少。我们提出了一种基于计算复杂性的框架,在搜索过程中,解释演绎真理与简化步骤的发现同时出现。当这种结构缺失时,我们转向基于错误的理由,其中一次(修正后的)错误可以作为虚构的但具有解释性的偶然原因:不犯错误成为一种理由,说明真理为何具有这种形式。我们使用GPT-4o模拟了人类受试者,让他们解决不同复杂性和合理性的SAT谜题,验证了我们的理论,并展示了在未来的人类研究中如何测试其预测。
arXiv:2502.11221v1 宣布类型:新
摘要:大规模语言模型(LLMs)在生成计划方面具有巨大的潜力,能够将初始世界状态转化为期望的目标状态。大量的研究探讨了LLMs在各种规划任务中的应用,从网络导航到旅行规划和数据库查询。然而,这些系统往往针对具体问题进行设计,这使得它们之间难以比较或确定新任务的最佳方法。此外,缺乏明确和一致的评估标准。我们的调查旨在提供一个全面的LLM规划概述,以填补这一空白。它基于Kartam和Wilkins(1990年)的基础工作,并考察了六项关键性能标准:完备性、可执行性、最优性、表示性、泛化能力和效率。对于每一项,我们提供了代表性作品的详尽分析,并指出了它们的优点和缺点。本文还指出了未来的关键方向,使其成为希望利用LLM规划支持代理工作流程的从业者和新入门人员的重要资源。
arXiv:2502.11164v1 通知类型: 新
摘要: DeepSeek-R1 以其低训练成本和卓越的推理能力著称,在各种基准测试中均取得了最先进的性能。然而,缺乏从实际应用场景角度进行的详细评估,使得用户难以选择最适合他们特定需求的 DeepSeek 模型。为了解决这一缺口,我们在 A-Eval,一个以应用为导向的基准测试上,评估了 DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen 系列和 DeepSeek-R1-Distill-Llama 系列。通过比较原指令调优模型与其蒸馏版本,我们分析了推理增强如何影响多种不同实际任务的性能。我们的结果显示,虽然推理增强的模型通常具有强大的性能,但并非在所有任务上都能普遍超越基线模型,其性能提升因任务和模型而异。为了进一步帮助用户进行模型选择,我们通过性能等级分类和直观的折线图量化了 DeepSeek 模型的能力边界。具体实例提供了可操作的见解,帮助用户选择和部署最具成本效益的 DeepSeek 模型,确保在实际应用场景中实现最佳性能和资源效率。
arXiv:2502.11157v1 宣布类型: 新
摘要: 我们提出了Dyve,这是一种动态过程验证器,通过结合快思考和慢思考来增强大型语言模型中的推理错误检测,受到Kahneman系统理论的启发。Dyve适应性地应用立即的标记级确认System 1进行简单的步骤分析,并综合全面分析System 2进行复杂的步骤分析。利用一种新颖的逐步共识过滤过程监督技术,结合蒙特卡洛估计与基于LLM的评估,Dyve从中噪声数据中筛选出高质量的监督信号。在ProcessBench和MATH数据集上的实验结果证实,Dyve在现有基于过程的验证器中表现显著优于,且在Best-of-N设置中提升了性能。
arXiv:2502.11155v1 宣告类型: 新
摘要: 基于价值模型的搜索在引导生成方面是有效的,但存在扩展缺陷:其优势随着样本量的增大而减弱,表现不如非搜索基线。这种局限性源于在未见推理路径中价值模型可靠性的下降。为了应对这一问题,我们提出了一种 Awareness of 不确定性的搜索框架,其中包括两个关键组件:(1) 含有不确定性预测的价值模型,以及 (2) 使用建议的高效Group Thompson Sampling算法的 Awareness of 不确定性选择过程。在GSM8K上的实验表明,我们的方法缓解了搜索扩展缺陷,在16样本时覆盖率为90.5%,而传统价值导向搜索仅为85.8%。这项工作首次系统地将不确定性的量化集成到LLM搜索范式中。