arXiv:2502.05632v1 公告类型: 新
摘要: 本作品介绍了Amorphous Fortress Online——一个基于网络的平台,用户可以在其中设计类似培养皿的环境和游戏,这些环境和游戏中包含多智能体AI角色。用户可以游玩、创建和分享由微观透明的有限状态机代理组成的人工生命和游戏环境,这些代理能够相互交互。该网站提供了多个交互式编辑器和易于访问的设置,可以直接在浏览器中查看多智能体的交互。该系统旨在提供一个数据库,其中包含了使用简单AI代理的 Emergent 行为来构建的主题多样的AI和游戏环境。
arXiv:2502.05608v1 网络 paradigm 类型: 新
摘要: 通过使用基于人工智能(AI)的网络管理工具,现有的网络模式已经实现了更低的停机时间和更高的服务质量(QoE)。这些基于AI的管理系统允许自动响应网络条件的变化,降低运营商的操作成本,并提高整体性能。虽然采用基于AI的管理工具可以增强整体网络性能,但也带来了挑战,如移除人工监督、隐私侵犯、算法偏差以及模型不准确。此外,未能解决这些挑战的基于AI的代理行为应由这些代理本身负责,而不是整个网络。为了弥补这一问责缺口,提出了一种框架,该框架包括一个深度强化学习(DRL)模型和一个机器学习(ML)模型,用于识别并为参与任何涉及网络条件决策的基于AI的管理代理分配责任数值,最终影响终端用户。为该框架创建了一个仿真环境,使用模拟的网络操作参数进行训练。在测试中,DRL模型在识别基于AI的管理代理方面达到了96%的准确率,而使用梯度下降的ML模型在测试中识别网络条件的准确率为83%。
arXiv:2502.05556v1 通知类型: 新
摘要: 认知诊断模型(CDMs)旨在通过分析学生在一系列练习中的表现来评估学生的认知状态。然而,现有的CDMs往往由于缺乏丰富的先验知识而难以诊断不常用的练习和学生。随着大型语言模型(LLMs)的进步,这些模型拥有广泛的领域知识,将其整合到认知诊断中展现出了巨大的潜力。尽管如此,将LLMs与CDMs结合仍面临着显著的挑战。LLMs并不适合捕捉学生与练习之间的细腻协作交互,且LLMs的语义空间与CDMs的行为空间之间的差异阻碍了有效的融合。为了解决这些问题,我们提出了一种新的知识增强认知诊断(KCD)框架,这是一种利用LLMs增强CDMs的模型无关框架,适用于各种CDM架构。KCD框架分为两个阶段:LLM诊断和认知层次对齐。在LLM诊断阶段,对学生和练习进行全面而详细的诊断。在认知层次对齐阶段,我们使用对比学习和掩码重构方法来弥合CDMs的行为空间与LLMs的语义空间之间的差距。在几个真实世界数据集上的实验表明了我们提出框架的有效性。
arXiv:2502.05537v1 宣布类型: 新
摘要: 强化学习(RL)由于其快速学习、高效且普适性解决方案的能力,已成为组合优化(CO)问题的一种有前途的工具。然而,现有工作主要集中在一次性确定性CO问题上,而对于具有广泛应用前景的顺序随机CO(SSCO)问题,如自适应影响最大化(IM)和传染病干预等,研究却很少。本文研究了SSCO问题,我们首先决定所有时间步的预算分配(例如,自适应IM中的种子节点数量),然后为每个时间步选择节点集。现有的少数关于SSCO的研究简化了问题,假设预算在时间框架上均匀分布,导致次优解。我们提出了一种通用的分层RL(HRL)框架,称为觉醒-睡眠选项(WS-option),这是一种基于选项的两层框架,可以同时在较高层做出自适应预算分配决策并在较低层做出节点选择决策。WS-option 以两个层的马尔可夫决策过程(MDPs)一致形式为起点,捕捉这两个层决策之间的相互依赖性。在此基础上,WS-option 采用了几种创新设计以平衡模型训练的稳定性和计算效率,防止了两个层之间的恶性循环干扰。实验证明,WS-option 在有效性和泛化能力方面明显优于传统方法。此外,所学习的模型可以泛化到更大的图形,这大大降低了计算资源的开销。
arXiv:2502.05453v1 宣布类型: 新颖
摘要: 在动态开放世界场景中开发能够长期合作的智能代理是一个多代理系统中的主要挑战。传统的多代理强化学习(MARL)框架,如集中训练分散执行(CTDE),在可扩展性和灵活性方面存在困难。它们需要集中式的长期规划,而没有定制的奖励函数,这种规划是难以实现的,同时它们还面临处理多模态数据的挑战。CTDE方法还假设固定的合作策略,使得它们在动态环境中不实用,这些环境中的代理需要独立地适应和规划。为了应对分步多代理合作,我们提出了一种在新型多代理创造者环境中的去中心化自适应知识图记忆和结构通信系统(DAMCS)。我们的生成代理,由大型语言模型(LLM)驱动,通过利用外部知识和语言进行长期规划和推理,相较于传统的MARL代理更为可扩展。DAMCS不像传统的MARL策略那样完全共享所有过往经验中的信息,而是引入了一个多模态记忆系统,该系统以层次知识图的形式组织,并配以结构化的通信协议,以优化代理之间的合作。这使代理能够从过去的互动中进行推理,并高效地共享相关信息。在新型多代理开放世界任务实验中,DAMCS在任务效率和协作方面优于MARL和LLM基线。与单代理场景相比,两代理场景以63%更少的步骤实现了相同的目标,六代理场景以74%更少的步骤实现了相同的目标,突显了在实现长期目标中适应性记忆和结构化通信的重要性。我们公开发布了该项目:https://happyeureka.github.io/damcs。
arXiv:2502.05442v1 宣告类型: 新
摘要: 随着AI模型的不断增强和广泛应用,理解智能体在复杂环境中如何学习和做出决策对于促进伦理行为至关重要。本文探讨了将生物学驱动,特别是自我保存意识,融入三个不同智能体中的伦理影响。经过NEAT优化的贝叶斯智能体、经过随机变分推断优化的贝叶斯智能体以及GPT 4o智能体在一个模拟的、由LLM生成的文本冒险游戏中进行了互动。在每个场景中,智能体选择行动以求生存,适应越来越具挑战性的场景。模拟结束后,对智能体决策的伦理评分进行了评估,揭示了他们在求生过程中所面临的权衡。具体而言,分析发现,当危险增加时,智能体会忽视伦理考量,选择不道德的行为。智能体集体的行为表明,优先考虑生存可能导致不道德行为的增加。在强人工智能的背景下,设计智能体优先考虑生存可能会放大不道德决策和意外 emergent 行为的可能性,从而在人工智能安全研究中提出了关于目标设计的基本问题。
arXiv:2502.05439v1 宣告类型: 新
摘要: 大型语言模型的出现标志着一个新代理系统的时代,其中的人工智能程序在多个领域展现出惊人的自主决策能力。本文探讨了金融服务业中的代理系统工作流程。特别是,我们构建了能够有效协作完成复杂建模和模型风险管理(MRM)任务的代理团队。建模团队由一名经理和多个执行特定任务的代理组成,这些任务包括探索性数据分析、特征工程、模型选择、超参数调整、模型训练、模型评估和编写文档。MRM团队由一名经理和专门执行合规检查、模型复现、概念合理性检查、结果分析和编写文档等任务的代理组成。我们通过将建模和MRM团队应用于信用卡欺诈检测、信用卡审批和投资组合信用风险建模数据集等一系列数值示例,展示了其有效性和鲁棒性。
arXiv:2502.05398v1 宣布类型: 新颖
摘要: 元认知是关于代理自身内部过程推理的概念,最近它在人工智能(AI)以及更具体地说,在机器学习系统方面重新引起了关注。本文回顾了一种称为“错误检测和纠正规则”(EDCR)的混合AI方法,该方法允许学习纠正感知(例如,神经)模型的规则。此外,我们引入了一种概率框架,以增加之前的经验研究的严谨性,并使用此框架证明了元认知改进的必要和充分条件的结果,以及该方法的限制。一套未来
arXiv:2502.05352v1 通知类型: 新
摘要: 实现使用AI代理来自动化关键IT任务的愿景取决于能够衡量和理解所提出解决方案有效性的能力。我们介绍了ITBench,一个框架,提供了一种系统的方法来评估AI代理以应对真正的IT自动化任务。我们最初发布的版本针对三个关键领域: sites可靠性工程(SRE)、合规与安全运营(CISO)以及财务运营(FinOps)。该设计使AI研究人员能够通过一键式工作流程和可解释的指标来了解AI代理在IT自动化中的挑战和机遇。ITBench 包含一组初始的94个真实场景,可以通过社区贡献轻松扩展。我们的结果显示,基于最新模型的代理仅能解决13.8%的SRE场景、25.2%的CISO场景以及0%的FinOps场景。我们希望ITBench 能够成为AI驱动的IT自动化的关键促成因素,使其正确、安全且快速。
arXiv:2502.05244v1 申明类型: 新
摘要: 人工智能通常指的是模拟和工程实现能够执行通常需要人类智能的任务的系统,例如玩游戏、翻译语言和驾驶汽车。近年来,在基于学习、数据驱动的AI方法方面取得了令人兴奋的进展,机器学习和深度学习使计算机系统以前所未有的方式感知世界。强化学习使围棋等复杂游戏和四足机器人行走等挑战性机器人任务取得了突破。
智能的一个关键方面不仅在于做出预测,还需要考虑这些预测中的不确定性,并在做决策时考虑这种不确定性。这就是这篇题为“概率人工智能”的文章所探讨的内容。文章的第一部分涵盖了概率方法在机器学习中的应用。我们讨论了由于数据不足导致的“先验”不确定性与不可约的“统计”不确定性之间的区别,后者来源于噪音观测和结果等。我们讨论了具体的概率推断方法以及现代高效的近似推断方法。
文章的第二部分是关于在序列决策任务中考虑不确定性。我们考虑了主动学习和贝叶斯优化——这些方法通过提出信息收集实验以减少先验不确定性来收集数据。然后,我们考虑了使用神经网络函数逼近的强化学习和现代深度强化学习方法。最后,我们讨论了结合先验和统计不确定性进行模型强化学习的现代方法,这些方法在指导探索的同时还考虑安全性。