arXiv:2405.08036v5 宣布类型: 替换-交叉
摘要:价值函数因子化方法在合作多智能体强化学习中广泛应用,QMIX 受到特别关注。许多基于 QMIX 的方法引入联合动作价值和个体动作价值之间的单调性约束以实现去中心化的执行。然而,这种约束限制了价值因子化的能力表示,限制了它可以表示的联合动作值,并妨碍了最优策略的学习。为解决这一挑战,我们提出了潜在最优联合动作加权 QMIX (POWQMIX) 算法,该算法识别潜在的最优联合动作,并在训练过程中对这些联合动作对应的损失赋予更高的权重。我们理论上证明,通过这种方式加权的训练方法可以保证最优策略的恢复。在矩阵博弈、增强难度的猎物-捕食者以及 StarCraft II 多智能体挑战环境中的实验显示,我们的算法优于现有的基于值的多智能体强化学习方法。
arXiv:2402.06038v2 Announce Type: replace-cross
摘要:先验不变表示学习(PIRL)随后进行监督微调(SFT)已成为在有限标签情况下学习的标准范式。我们将其扩展到正未标记(PU)设置中,在这种设置中,只有少量标记的正样本和一个未标记的大池——该池包含正样本和负样本。我们研究了该问题的两种情况:(i)不访问类先验;以及(ii)知道或可以通过估计类先验的情况。我们引入了正未标记对比学习(puCL),这是一种无偏且方差减少的对比目标,它巧妙地将标记的正样本的弱监督集成到对比损失中。当知道类先验时,我们提出了一种先验感知的正未标记InfoNCE(puNCE),这是一种重新加权未标记样本为软正负混合物的扩展。对于下游分类,我们开发了一种伪标签算法,该算法通过PU感知聚类利用学习到的嵌入空间的结构。我们的框架得到了理论的支持;它提供了偏差方差分析、收敛洞察和通过增强集中提供的泛化保证;并通过标准PU基准测试得到了实验证明,在低监督情况下它始终优于现有方法。
arXiv:2307.06162v2 Announce Type: replace-cross
摘要:在本文中,我们对生理信号,特别是心电图(ECG)、脑电图(EEG)、光体积描记图(PPG)和肌电图(EMG)的深度生成模型进行了系统的文献综述。相比现有的综述文章,我们首次概述了最新的一流深度生成模型。通过分析与深度生成模型相关的最新研究及其主要应用和挑战,本文有助于理解这些模型在生理信号中的应用。此外,通过强调所采用的评估协议以及最常用的生理数据库,本文促进了深度生成模型的评估和基准测试。
arXiv:2305.10449v2 公告类型:replace-cross
摘要:超越“树突民主”,我们引入了一种称为Cooperator的“局部处理器民主”。在这里,我们将它们在置换不变神经网络中用于强化学习(RL)时的能力与基于Transformer的机器学习算法(如ChatGPT)进行比较。Transformer基于长期存在的积分-放电“点”神经元观念,而Cooperator则受到最近神经生物学突破的启发,表明心理健康的基础依赖于新皮层中的上下文敏感的尖锐锥体神经元,这些神经元具有两个功能上不同的点。我们展示了在RL中使用基于Cooperator的算法比基于Transformer的算法学习速度更快,即使它们具有相同数量的参数。
arXiv:2504.05500v2 更新类型: 替换
摘要:大型语言模型(LLMs)的迅猛发展已经超越了传统的评估方法。静态基准无法捕捉到LLM能力的深度和广度,并最终变得过时,而大多数动态方法要么过于依赖基于LLM的评估,要么仍然受到预定义测试集的限制。我们引入了Prism,一个灵活的动态基准测试框架,旨在进行全面的LLM评估。Prism基于三个关键组成部分构建:(1)一种基于树的状态表示方式,将评估建模为马尔可夫决策过程,(2)一种适应性的蒙特卡洛树搜索算法,用于揭示具有挑战性的评估场景,以及(3)一个多代理评估流水线,能够同时评估多种能力。为了确保稳健的评估,Prism将树探索模式的结构测量与不同难度等级的性能指标结合起来,提供了详细的错误模式诊断、测试覆盖率和解决方案方法分析。通过对五种最先进的LLM的广泛实验,我们分析了模型架构和规模如何影响在不同任务难度下生成代码的表现。我们的结果表明,Prism作为一个随着模型进步而演进的动态基准,不仅有效,还能提供更深入地了解模型的局限性。
arXiv:2504.03699v2 宣传类型: 替换
摘要:在数据驱动的医学时代,将可解释且伦理管理的人工智能纳入临床决策支持系统中解释,以实现值得信赖且有效的患者护理是至关重要的。本文的重点是一个新的多智能体系统的临床决策支持架构,该架构使用模块化智能体分析实验室结果、生命体征和临床背景,然后将这些结果整合起来,以驱动预测并验证结果。我们使用eICU数据库实现了特定于实验室分析的智能体、仅生命体征解释器以及背景推理机,并运行了预测模块和验证智能体。一切都是透明的业务逻辑实现,受到伦理AI治理原则(如自主性、公平性和责任感)的影响。它提供了可见的结果,证明了基于代理的框架不仅提高了解释性和准确性,还增强了在重症监护环境中AI辅助决策的信任。
arXiv:2504.02670v2 公告类型:更换
摘要:大型语言模型(LLMs)正在重塑能够跨领域执行多种任务的AI助手的发展。然而,当前最先进的LLM驱动的智能体面临着重大挑战,包括高昂的操作成本以及在GAIA等复杂基准测试中较低的成功率。为了解决这些问题,我们提出了思辨知识图谱(KGoT),这是一种创新的AI助手架构,将LLM推理与动态构建的知识图谱(KGs)相结合。KGoT将与任务相关的知识提取并结构化为动态KG表示,并通过外部工具如数学求解器、网络爬虫和Python脚本进行迭代增强。这种结构化的任务相关信息的表示使得低成本模型能够有效解决复杂任务。例如,KGoT在GAIA基准测试上的任务成功率相较于Hugging Face Agents中的GPT-4o mini提高了29%,而与GPT-4o相比,成本降低了超过36倍。对于最近的推理模型,提升相似,例如,Qwen2.5-32B和Deepseek-R1-70B分别提高了36%和37.5%。KGoT提供了一种可扩展、经济实惠且高性能的AI助手解决方案。
arXiv:2503.23633v4 宣告类型: 替换
摘要:生成式AI的兴起,以大规模语言模型(LLMs)为代表,为地理信息的表示和计算提供了新的方式,并超越了地理知识生产的过程,推动地理信息系统(GIS)向自主GIS发展。通过利用LLMs作为决策核心,自主GIS可以独立地生成和执行地理处理工作流以执行空间分析。在这篇愿景论文中,我们进一步阐述了自主GIS的概念,并提出一个概念框架,定义了其五个自主目标、五个自主层次、五个核心功能和三个操作尺度。我们通过四个概念GIS代理展示了自主GIS如何执行空间数据检索、空间分析和地图制作。在结论中,我们指出了关键挑战和未来研究方向,包括微调和自我成长的决策核心、自主建模以及探讨自主GIS的社会和实际影响。通过在地理信息系统科学中建立范式转移的基础,这篇论文预见了一个未来,在这个未来中,GIS超越传统的工作流,自主地推理、推导、创新并推进解决全球紧迫挑战的空间解决方案。随着我们设计和部署越来越智能的地理空间系统,我们有责任确保它们以负责任的方式开发,服务于公共利益,并支持在人工智能增强的未来中人类地理洞察的价值。
arXiv:2503.12349v3 宣告类型: 替换
摘要:推理和战略行为在社会互动中的表现是智能的标志。这种推理远比在静态环境中孤立的规划或推理任务(例如数学问题解决)复杂得多。在本文中,我们提出了战略规划、互动与谈判 (SPIN-Bench) 评估,这是一种新的多领域评估,旨在衡量战略性规划和社交推理的智能程度。虽然许多现有基准主要关注狭隘的规划或单智能体推理,但 SPIN-Bench 将经典的 PDDL 任务、竞争性桌面游戏、合作纸牌游戏以及多智能体谈判场景统一在一个框架中。该框架不仅包括基准测试,还提供了一个模拟和评估各种社会环境的竞技场,以测试智能体的推理和战略行为。我们通过系统地变化行动空间、状态复杂性和互动智能体的数量,制定 SPIN-Bench 基准,以模拟各种社会环境,在这些环境中,成功不仅取决于有条不紊和分步的决策,还取决于对其他参与者(竞争者或合作者)概念推理的理解。我们的实验表明,尽管现代语言模型在基本事实检索和短期规划方面处理得相当好,但在需要在大型状态空间中进行深层多跳推理和在不确定性环境下表现出社交技巧协作的任务中遇到了显著的性能瓶颈。我们设想 SPIN-Bench 将成为未来关于鲁棒多智能体规划、社交推理和人-智能体协同研究的催化剂。项目网站:https://spinbench.github.io/
arXiv:2411.12808v2 宣告类型:替换
摘要:医生短缺正在加剧获取医疗专业知识的紧迫性。虽然对话型人工智能(AI)在解决这一问题方面充满 promise,但在实际医疗环境中将安全地部署其用于患者接触类角色方面仍鲜有探索。我们首次在全球范围内评估了在实际医疗环境中由医生监督的基于大型语言模型的对话代理。
我们代理名为 Mo,被整合到一个现有的医疗建议聊天服务中。在为期三周的时间里,我们进行了随机对照实验,涉及926个病例,以评估患者体验和满意度。在这其中,Mo 处理了298次完整的患者互动,我们报告了医生评估的安全性和医疗准确性的指标。
患者报告,在 AI 辅助对话中对比标准护理,信息的清晰度(4 分制,3.73 对 3.62,p < 0.05)和总体满意度(5 分制,4.58 对 4.42,p < 0.05)更高,同时表现出相同水平的信任和感知的同理心。高达81%的响应者参与率超出了此前医疗领域中人工智能接受度的基准。医生监督确保了安全性,95%的对话由具有管理医疗建议聊天服务经验的一般 practitioners 评为“良好”或“优秀”。
我们的发现表明,在医生监督下精心实施的人工智能医疗助手可以提高患者体验,同时通过医生监督维持安全标准。这项工作提供了人工智能在医疗沟通中部署可行性的实证证据,并对成功整合到现有医疗服务体系的要求提供了见解。