arXiv:2502.03200v1 宣布类型: 新
摘要:基于树和基于规则的机器学习模型在可解释人工智能(XAI)中发挥了关键作用,这是因为它们独特的提供以树或规则集形式解释的能力,这些解释易于理解和解释,使其在需要信任模型决策的应用中变得至关重要。这些透明的模型通常用于替代模型建模,在此之后的XAI方法中解释黑盒模型的逻辑,使用户能够理解并信任复杂的预测系统,同时保持竞争性能。本研究提出了一种名为Cost-Sensitive Rule and Tree Extraction (CORTEX)的新基于规则的XAI算法,该算法基于多类成本敏感决策树(CSDT)方法。原始的CSDT方法扩展到具有超过两类的分类问题,通过引入n维类依赖成本矩阵的概念。CORTEX作为规则提取XAI方法的性能与其他后处理树和规则提取方法在不同类别的多个数据集上的性能进行了比较。采用了多种定量评估指标来评估生成的规则集的解释性。我们的研究表明,CORTEX在与其他树基方法的竞争中表现出色,并且在不同数据集上可以优于其他基于规则的方法。提取的规则集表明,与使用其他方法相比,使用CORTEX方法可以生成较小的规则集,这些规则集的长度较短,适用于具有不同类别的多个数据集。总体而言,结果强调了CORTEX作为一种强大的XAI工具的潜力,使其能够在其生成清晰、易于理解规则的同时维持良好的预测性能。
arXiv:2502.03038v1 项目类型: 新增
摘要: 在图灵奖得主 Yann LeCun 的一个广为流传的类比中,机器智能被比作蛋糕——其中无监督学习构成了基础,监督学习添加了奶油,而强化学习则是那顶桂冠。我们从一个简单的结构类比扩展了“智能蛋糕”的类比,将其扩展到人工智能系统的完整生命周期,包括原料来源(数据)、食谱构思(指令)、烘焙过程(训练),以及品尝和销售蛋糕(评估和分发)。利用我们重新概念化的方法,我们描述了每一步所涉及的社会后果及其如何受到机器学习中的统计假设的限制。虽然这些技术基础和社会影响是紧密交织的,但它们往往是在孤立的研究中进行的,这创造了阻碍有意义参与的障碍。我们的重新概念化为弥合这一差距铺平了道路,通过映射技术基础与社会结果的交互,突出跨学科对话的机会。最后,我们提供了对这个比喻中的人工智能蛋糕生命周期每个阶段的实际建议,增强了未来的AI从业者、用户和研究人员在更广泛的人工智能讨论中的意识和参与能力。
arXiv:2502.02982v1 宣告类型: 新
摘要: 移动代理的发展为在移动设备上自动化任务提供了新的机会。训练这些代理需要大量的高质量数据,而使用人工劳动则成本高昂。鉴于全球范围内庞大的移动电话用户数量,如果能够从他们那里自动收集数据,则由此产生的数据量以及随后训练的移动代理可能会达到前所未有的水平。然而,两个主要挑战也随之出现:(1) 在不涉及人类的情况下提取高层面和低层面的用户指令;(2) 利用来自不同用户的分布式数据的同时保护隐私。
为了应对这些挑战,我们提出了 FedMobileAgent,这是一种协作框架,用于使用来自多样用户的自源数据训练移动代理。具体来说,它包括两种技术。首先,我们提出了自动注释(Auto-Annotation),该技术能够在用户的日常手机使用过程中自动收集高质量的数据集,成本最低。其次,我们引入了适应性聚合,以通过结合事件级和步骤级分布来改进移动代理在网络异构数据上的联邦训练。在分布式环境中,FedMobileAgent 在成本不到 0.02% 的情况下实现了与集中式人工标注模型相当的性能,凸显了其在实际应用中的潜力。
arXiv:2502.02963v1 通知类型: 新
摘要: 我们提出了基于机器学习的方法来确定命题逻辑知识库的一致性程度——这是一个数值值。具体来说,我们提出了回归模型和神经网络模型,使其能够预测一致性度量 $\incmi$ 和 $\incat$ 会给命题逻辑知识库分配的值。我们的主要动机是,传统上计算这些值在计算复杂性上可能是困难的。作为重要的补充,我们使用了底层一致性度量的特定公理,即属性,推断出符号规则,并将这些规则与基于学习的模型以约束的形式结合起来。我们进行了各种实验,并展示了以下两点:a) 在许多情况下预测程度值是可行的;b) 包括从理性公理推断出的符号约束可以提高预测质量。
arXiv:2502.02883v1 通知类型: 新
摘要:自然语言与传感系统交互对于使所有用户能够理解传感器数据及其对其日常生活的影响至关重要。然而,现有的系统通常以问答(QA)的方式工作,在处理传感器数据的持续时间和复杂性方面存在明显限制。在本文中,我们介绍了SensorChat,这是首个专门为长期传感器监测设计的端到端问答系统,处理包括时间序列在内的多模态和高维数据。SensorChat能够有效地回答需要高级推理的定性问题和需要从传感器数据中获取精确响应的定量问题。为了实现这一点,SensorChat使用了一个创新的三阶段管道,包括问题分解、传感器数据查询和答案组装。第一和第三阶段利用大型语言模型(LLMs)进行直观的人机交互,并指导传感器数据查询过程。与现有的多模态LLMs不同,SensorChat包含一个显式的查询阶段,以精确提取长时间传感器数据中的事实信息。我们实现了SensorChat,并在云服务器上展示了其在实时交互方面的能力,经过量化后也可以完全在边缘平台上运行。全面的问答评估显示,与最先进的系统相比,SensorChat在定量问题上的答案准确性提高了26%。此外,一项包括八名志愿者的用户研究突出显示了SensorChat在处理定性和开放式问题方面的有效性。
arXiv:2502.02817v1 宣布类型: 新
摘要: 动作质量评估(AQA)——能够量化人类运动、动作或技能水平并提供反馈的能力——在低成本物理治疗、体育训练和劳动力发展等方面具有深远的影响。因此,过去十年来,它已成为计算机视觉与视频理解领域的关键领域。在AQA方法、数据集和应用方面取得了显著进展,但仍存在着对这一快速发展的领域进行全面综述的迫切需求。在本文中,我们提供了一份详细的AQA概览,系统地回顾了超过200篇研究论文,采用了系统综述与元分析(PRISMA)框架。我们首先涵盖了基础概念和定义,然后转向通用框架和性能指标,最后讨论了方法学和数据集的最新进展。此综述提供了对研究趋势、性能比较、挑战和未来方向的详细分析。通过这项工作,我们试图为新手和经验丰富的研究人员提供有价值的资源,促进AQA的进一步探索与进展。数据可在https://haoyin116.github.io/Survey_of_AQA/ 获取。
arXiv:2502.02768v1 宣告类型: 新
摘要: 在现实世界的环境中工作的智能代理必须能够学习环境及其能力,使它们能够采取行动以改变世界的状态,从而在逼真的环境中完成复杂的多步骤任务。了解环境对于执行各种多步骤任务尤其重要,而无需为不同的任务或环境设置重新定义代理的操作集。在我们的工作中,我们通过将世界中对象的学习可用性模型补充到现有的任务和运动规划框架中,使利用学习模型进行多步骤任务的计划和执行成为可能。每项任务都可以被视为将当前世界状态更改为给定的目标状态。可用性模型为我们提供了在任何给定状态下可能执行哪些操作以及如何执行这些操作的信息。符号规划算法利用这些信息以及起始状态和目标状态来创建一个可行的计划,以达到所需的目标状态,从而完成给定的任务。我们在虚拟的3D逼真环境AI2-Thor中演示了我们的方法,并在实际任务上进行了评估。我们的结果显示,我们的代理能够迅速学会如何与环境进行交互,并且准备充分,能够执行诸如“将物体移开以到达所需位置”之类的任务。
arXiv:2502.02688v1 公告类型: 新
摘要:约束编程的成功部分取决于全局约束及其相关过滤算法的实现。最近,出现了改进这些实现的新思路,尤其是在"所有不同的约束"方面。在本文中,我们考虑带有成本的基数约束。基数约束是对所有不同的约束的一种一般化,它指定了在一个解决方案中,给定变量集合中每个值必须出现的次数。带有成本的版本引入了分配成本,并对分配成本的总和设定了上限。这个约束的弧一致过滤算法在实践中难以使用,因为它系统地搜索了许多最短路径。我们提出了一种新的方法,该方法基于地标使用最短路径的上界。这种方法可以被视为预处理。它是快速的,并在实践中避免了大量的显式最短路径计算。
arXiv:2502.02649v1 宣布类型: 新
摘要:本文认为不应开发完全自主的人工智能代理。为支持这一观点,我们基于先前的科学文献和当前的产品营销,界定了不同的人工智能代理级别,并详细描述了每个级别中存在的伦理价值,记录了潜在利益和风险之间的权衡。我们的分析揭示,系统的自主性越高,对人的风险就越大:用户将越多的控制权交给人工智能代理,人的风险就越大。尤其是值得关注的是安全风险,这些风险会影响人类生命,并影响其他价值观。
arXiv:2502.01618v2 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)通过扩大模型规模和/或数据规模实现了显著的性能提升。然而,最近的证据表明,这种方法的回报正在减少,这促使我们在推理时扩大计算规模。现有的推理时扩展方法通常使用奖励模型,将任务视为搜索问题,这会导致奖励模型中的近似误差导致奖励欺骗。在本文中,我们相反地将推理时扩展视为概率推理任务,并利用基于采样的技术来探索具有近似似然的状态空间模型的状态分布的典型集,而不是直接优化其模式。我们提出了一种新的推理时扩展方法,通过将粒子蒙特卡洛方法适应到此任务。我们的实证评估表明,与我们的确定性搜索方法相比,我们的方法在各种具有挑战性的数学推理任务上的扩展率提高了4-16倍。使用我们的方法,我们展示了Qwen2.5-Math-1.5B-Instruct在仅4轮次中可以超越GPT-4o的准确性,而Qwen2.5-Math-7B-Instruct仅在32轮次中就能达到o1级准确性。我们的工作不仅提供了一种有效的推理时扩展方法,还通过将概率推理的丰富文献与LLMs的推理时扩展相结合,为未来开发更稳健的算法奠定了基础。代码和更多详细信息可在 https://probabilistic-inference-scaling.github.io 获取。