arXiv:2505.10468v1 宣告类型: 新增
摘要: 本研究批判性地区分了AI代理和生成性AI,提供了一个结构化的概念分类、应用映射和挑战分析,以明确它们不同的设计哲学和能力。我们首先概述了搜索策略和基础定义,将AI代理描述为由大型语言模型(LLMs)和大型图像模型(LIMs)驱动的模块化系统,用于狭窄的任务特定自动化。生成性AI被定位为先驱,AI代理通过工具集成、提示工程和推理增强而发展。相比之下,生成性AI系统代表了一种范式的转变,标志在于多代理合作、动态任务分解、持久记忆和协调自主性。通过按照架构演化、操作机制、交互风格和自主性水平进行逐步评估,我们对两个范式进行了对比分析。应用领域如客户服务、排程和数据总结与生成性AI在研究自动化、机器人协调和医疗决策支持中的部署进行了对比。我们还进一步考察了每个范式中的独特挑战,包括幻觉、脆弱性、涌现行为和协调失败,并提出了针对性的解决方案,如ReAct循环、检索增强生成(RAG)、协调层和因果建模。本研究旨在为开发稳健、可扩展和可解释的AI代理和生成性AI驱动系统提供一个明确的路线图。>AI代理,代理驱动,视觉语言模型,生成性AI决策支持系统,生成性AI应用
arXiv:2505.10399v1 宣告类型: 新
摘要: 对单一模型预测而言,可能存在多种竞争性和矛盾性的解释,这使人们难以选择出适合使用的解释。当前的解释评估框架通过与理想的“真实情况”解释进行比较来衡量质量,或者通过验证模型对重要输入的敏感性来衡量。我们概述了这些方法的局限性,并提出了三个有望为局部特征重要性解释评估策略奠定基础的原则。我们提出了一种新的无“真实情况”依据的解释评估框架 (AXE),用于评估和比较模型解释,并满足这些原则。与先前的方法不同,AXE 不需要访问理想的“真实情况”解释来进行比较,也不依赖于模型的敏感性,从而提供了一个独立的解释质量评估标准。我们通过与基础方法进行比较验证了 AXE,并展示了如何使用它来检测解释公平性问题。我们的代码可在 https://github.com/KaiRawal/Evaluating-Model-Explanations-without-Ground-Truth 获取。
arXiv:2505.10361v1 宣告类型: 新
摘要: 代理是受其过去观察影响并能够影响未来观察的最小实体。这种能力的表现形式是效能,它在人工智能和认知科学中起到了至关重要的作用。然而,代理受其观察影响的方式与程度也同样基础。代理能够在多大程度上被其观察所影响?在这篇文章中,我们基于一个普遍的以代理为中心的度量来定义这个概念,并称之为可塑性,揭示了它与效能的基本联系。遵循一个合适定义所需的一系列目标,我们使用一种新的信息论量度——广义定向信息来定义可塑性。我们展示了这种新的量度严格地扩展了Massey(1990年)引入的定向信息,同时保留了其所有理想的属性。我们第一个发现是:可塑性是效能的镜像:代理的可塑性与其所处环境的效能完全相同,反之亦然。我们第二个发现表明了代理的可塑性与效能之间存在紧张关系,这表明在进行代理设计时需要同时考虑这两种特性。我们探讨了这些发现的影响,并提议可塑性、效能及其关系对于理解代理至关重要。
arXiv:2505.10328v1 人员调度类型: 新
摘要:人员调度对医疗服务质量和工作人员工作条件的影响已经被充分记录。然而,不断增长的需求和广泛存在的约束变化使得医疗人员调度变得尤为挑战。这个问题已经研究了几十年,但很少有关于如何将适应性逻辑谓词演算(Satisfiability Modulo Theories, SMT)应用于该领域的研究。在过去的几十年里,SMT 在形式验证社区中取得了很大进展,导致了性能优于标准数学规划方法的 SMT 求解器的发展。
在本文中,我们提出了通用的约束表达式,可以 modeling 各种实际的调度约束。然后,这些通用约束被表述为 SMT 和混合整数线性规划(MILP)问题,并用于在学术问题和基于现实世界的排班问题上比较最新的 SMT 求解器 Z3 和 MILP 求解器 Gurobi。实验结果展示了每种求解器在特定类型问题上的优势;当问题高度受限或不可行时,MILP 求解器表现更优,而 SMT 求解器在其他情况下表现更好。在包含更广泛轮班和人员的选择的实际问题中,SMT 求解器表现出色。此外,在实验中发现,SMT 求解器对通用约束的表述方式更为敏感,需要仔细考虑和实验以获得更好的性能。我们得出结论,基于 SMT 的方法为医疗人员调度领域未来的研究提供了一个有前景的途径。
arXiv:2505.10309v1 新闻类型: 新闻
摘要: 机器中的常识智能往往通过静态基准来评估,这些基准将模型的输出与人类预先规定的正确标签进行对比。这些标签的一个重要但隐含的假设是,它们能够准确捕捉任何人类的看法,从而将人类的常识视为一致的。然而,最近的实证研究表明,人类在认为什么是常识方面存在巨大差异;因此,一个基准设计师认为显而易见的东西可能对另一个设计师来说并不是如此。在这里,我们提出了一种新的方法,用于评估人工智能(AI)中的常识,特别是大型语言模型(LLMs),该方法通过测量模型判断与其所在群体的一致性来纳入人类观察到的异质性。首先,当我们把大多数LLMs视为独立的调查受访者时,它们的个体常识能力仍然落后于人类中位数。其次,当作为假设群体的模拟器使用时,LLMs在对同一套陈述达成一致的程度上仅与真实人类有适度的相关性。在两种情况下,较小、开放权重的模型出人意料地比大型、专有的前沿模型更有竞争力。我们的评估框架将常识智能与其文化基础联系起来,有助于适应具有不同,往往不兼容的社会知识存量的人类群体的AI模型的呼吁,这一趋势正在逐渐增长。
arXiv:2505.10278v1 宣告类型: new
摘要: 基于LLM的多智能体系统在模拟和提升性能方面具有显著潜力,但现有工作要么局限于纯模拟,要么受限于预定义的工作流程,限制了它们的应用性和有效性。本文中,我们介绍了多智能体扩展模拟(MASS)用于投资组合构建。MASS 通过逐步增加代理的数量进行大规模模拟,从而获得对市场的深入理解,并通过反向优化过程实现代理分布的端到端优化,而不是依赖固定的工作流程。我们通过与 6 种最新基准算法在 3 个具有挑战性的 A 股股票池上的性能实验、消融研究、回测实验、更新数据和股票池实验、扩展实验、参数敏感性实验和可视化实验进行比较,展示了其优越性。我们期望由 MASS 建立的范式能够扩展到其他具有类似特征的任务。MASS 的实现已开源,可在 https://github.com/gta0804/MASS 查看。
arXiv:2505.10188v1 宣告类型: 新颖
摘要: 随着医疗保健领域越来越多地采用人工智能技术,理解哪些类型的解释能够增加透明度,并提升用户对机器学习(ML)系统预测结果的信心和信任变得尤为重要。在医生与机器学习系统合作进行适当决策的共同决策情境中,建立相互信任至关重要。在本文中,我们探讨了不同生成可解释人工智能(XAI)解释的方法,并使其背后的论点明确化,以便医疗专家能够对其进行评估。特别地,我们呈现了一项针对医生开展的用户研究的结果,以调查他们在诊断决策支持背景下对各种类型的人工智能生成解释的看法。该研究旨在识别那些能够提高诊断过程效果和实用性的最佳解释。在研究中,医务人员填写了一份问卷,评估不同类型的解释。此外,还进行了问卷后的访谈,以获得有关诊断决策支持中所包含解释要求的定性见解。总体而言,从这项研究中获得的见解有助于理解哪些类型的解释最有效。
arXiv:2505.10093v1 通知类型: 新
摘要: 台湾中国研究(CS)已成为一个丰富且跨学科的研究领域,这一领域受到独特的地缘政治地位和长期与中国大陆学术交往的影响。本研究针对近年来系统回顾和重组台湾基点上的CS学术文献的需求不断增强,提出了一种人工智能辅助的方法,将无结构的学术文本转化为结构化且互动的知识表示。我们应用生成型人工智能(GAI)技术和大型语言模型(LLMs),从1996年至2019年间发表的1,367篇经过同行评审的CS文章中提取并标准化实体关系三元组。然后,我们通过基于轻量级D3.js的系统来可视化这些三元组,形成了该学科的专业知识图谱和向量数据库的基础。这一基础设施允许用户探索文集中概念节点和语义关系,揭示之前未被探索的知识轨迹、主题集群和研究缺口。通过将文本内容分解为图结构化知识单元,我们的系统使从线性文本消费转向基于网络的知识导航成为可能。它不仅增强了学术界对中国研究文献的访问,还为传统的本体构建提供了可扩展的数据驱动替代方案。本文不仅展示了生成型人工智能如何增强区域研究和数字人文领域,还指出了其支持重塑的学术基础设施以促进区域知识系统的可能性。
arXiv:2505.10074v1 宣告类型: 新
摘要: 大规模开放在线课程(MOOCs)缺乏学习者与教师之间的直接互动,这使得学习者难以理解新的知识概念。最近,学习者越来越多地使用大型语言模型(LLMs)来支持他们获取新的知识。然而,LLMs 容易出现幻觉,这限制了它们的可靠性。检索增强生成(RAG)通过在生成响应前检索相关文档来解决这个问题。然而,RAG 在不同 MOOC 中的应用受到了非结构化学习材料的限制。此外,当前的 RAG 系统并没有积极地引导学习者满足他们的学习需求。为了解决这些挑战,我们提出了一种基于图的 RAG 流程,该流程利用教育知识图(EduKGs)和个人知识图(PKGs)来指导学习者在 CourseMapper MOOC 平台上理解知识概念。具体来说,我们实现了(1)基于 PKG 的问题生成方法,为学习者在上下文中推荐个性化问题,以及(2)基于 EduKG 的问题回答方法,利用 EduKG 中的知识概念之间的关系来回答学习者选择的问题。为了评估这两种方法,我们在 CourseMapper MOOC 平台上对 MOOC 的 3 个不同课程进行了 3 名专家教师的研究。评估结果表明,基于图的 RAG 有潜力使学习者在一个个性化的学习体验中理解新知识概念。
arXiv:2505.10034v1 宣告类型: 新
摘要: 抑郁症是一种广泛的心理健康问题,影响着各个年龄段的人群,特别是在大学生和老年人中具有较高的发病率。然而,现有的数据集和检测方法主要集中在年轻人身上,忽视了更广泛年龄范围和个体差异对抑郁症表现的影响。当前的方法通常在多模态数据和抑郁指标之间建立直接映射,未能捕捉到抑郁症在不同个体之间复杂多样的表现。这一挑战包括基于年龄特异性子集的两个赛道:赛道1利用MPDD-Elderly数据集检测老年人的抑郁症,赛道2利用MPDD-Young数据集检测年轻参与者的抑郁症。多模态个性感知抑郁症检测(MPDD)挑战旨在通过结合多模态数据和个人差异因素来弥补这一不足。我们提供了一个基线模型,结合了音频、视频模态和个人差异信息,以检测不同群体的抑郁症表现。该挑战旨在促进更个性化和准确的抑郁症检测方法的发展,推进心理健康研究,培养包容性的检测系统。更多详细信息可在官方挑战网站上获得:https://hacilab.github.io/MPDDChallenge.github.io。