LLM2D

arXiv 论文列表

作者: M\'elissa Tamine, Benjamin Heymann, Patrick Loiseau, Maxime Vono
arXiv:2502.06574v1 数据估值类型:新 摘要:基于半值的数据估值在机器学习(ML)中通过利用合作博弈理论的原则和效用的概念,量化了单个数据点对下游ML任务的贡献。尽管这种框架在实践中已被用于评估数据质量,但我们的实验揭示了不同效用下的估值结果存在不一致性,尽管这些效用都与ML性能相关。除了对数据估值可靠性的担忧外,这种不一致性难以诠释,因为它源自效用与数据点和半值权重之间的复杂互动,而在此之前的工作对此研究甚少。在本文中,我们朝着阐明效应对基于半值的数据估值影响迈出第一步。具体来说,我们为包括准确率和算术平均在内的广泛分类效用家族提供了几何解释。我们引入了空间签名的概念:给定一个半值,数据点可以嵌入到一个二维空间中,而效用函数映射到这个空间的对偶空间。这种几何视角将数据集和半值的影响与效用的影响区分开来,为实验观察到的估值结果对效用选择的敏感性提供了理论解释。
发布时间: 2/11/2025
查看原文
作者: Maria Eriksson, Erasmo Purificato, Arman Noroozian, Joao Vinagre, Guillaume Chaslot, Emilia Gomez, David Fernandez-Llorca
arXiv:2502.06559v1 宣布类型: 新增 摘要: 定量人工智能(AI)基准测试已成为评估AI模型和系统性能、能力和安全性的基本工具。目前,它们正在塑造AI的发展方向,并在监管框架中发挥越来越重要的作用。然而,随着它们影响力的增加,对于这些基准测试如何以及如何影响高度敏感的话题(包括高影响能力、安全性和系统性风险)的关切也随之增加。本文对该领域过去10年中约100项研究进行了跨学科综述,讨论了定量基准测试实践中的缺陷。它将基准测试设计和应用中的许多细节问题(如数据集创建中的偏差、不充分的文档、数据污染以及无法区分信号与噪声)与更广泛的社会技术问题(如过度关注根据单次测试逻辑评估基于文本的AI模型,而未能考虑到AI模型现在越来越多地是多模态的,并与人类和其他技术系统相互作用)结合在一起。我们的综述还指出了当前基准测试实践中的系统缺陷,如动机不一致、构念效度问题、未知的未知因素以及基准测试结果操控问题。此外,它突显了基准测试实践如何受到文化、商业和竞争动态的影响,这些动态通常将最先进的表现置于更广泛的公共利益之上。通过概述现有基准测试程序相关的风险,本文质疑对基准测试过度的信任,并为在复杂的现实场景中提高定量AI基准的问责制和相关性做出了贡献。
发布时间: 2/11/2025
查看原文
作者: Merlijn Krale, Wietze Koops, Sebastian Junges, Thiago D. Sim\~ao, Nils Jansen
arXiv:2502.06523v1 宣告类型: 新 摘要: 求解部分可观测马尔可夫决策过程(POMDPs)通常需要推理大量状态信念的价值。为了获取实用性能,最先进的求解器使用价值界来引导这种推理。然而,准确的上界往往计算成本高昂,并且这样的界越紧缩,其计算成本就越高。本文引入了新的、可以证明比常用快速有信息界更紧的上界。我们的实证评估表明,尽管这些新的上界具有额外的计算开销,但它们能够在广泛的应用基准上加速最先进的POMDP求解器。
发布时间: 2/11/2025
查看原文
作者: Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye Hao, Jun Wang, Kun Shao
arXiv:2502.06395v1 Announce Type: 新 摘要:将基础模型作为智能手机助手,称为应用代理(app agents),是一项关键的研究挑战。这些代理通过解释文本指令并在设备界面上执行动作来执行人类指令。尽管前景广阔,但当前的方法面临显著的限制。使用大型专有模型的方法,如GPT-4o,计算成本高昂,而使用较小的微调模型的方法往往在处理边缘任务时缺乏适应性。在这项工作中,我们引入了AppVLM,这是一种轻量级的视觉语言模型(VLM)。首先,我们在AndroidControl数据集上对其进行离线微调。然后,通过从AndroidWorld环境收集数据并进行进一步的训练迭代来优化其策略。我们的结果显示,在AndroidControl数据集上的离线评估中,AppVLM实现了最高的动作预测准确性,相比所有评估的基础模型基线,其准确率最高,而在AndroidWorld环境中,它在在线任务完成成功率方面与GPT-4o相当,但速度快了十倍。这使AppVLM成为一种实用且高效的实时部署解决方案。
发布时间: 2/11/2025
查看原文
作者: Kathelijne Coussement, Gert de Cooman, Keano De Vos
arXiv:2502.06235v1 通知类型: 新 摘要: 我们展示了如何将信念改变框架(扩展、修订、收缩)的AGM范式扩展到处理所谓的欲望-无差异框架中的条件化,该框架基于接受和拒绝选项以及事件的抽象概念。这种抽象层次使得我们能够同时处理经典的和量子的概率理论。
发布时间: 2/11/2025
查看原文
作者: Ziyang Guo, Yifan Wu, Jason Hartline, Jessica Hullman
arXiv:2502.06152v1 宣布类型: 新作 摘要:人类和AI经常会在决策任务中配对,期望通过互补的性能实现最佳表现,其中人类和AI的结合性能优于任何一方单独表现。然而,在不了解各个代理使用了何种特定信息和策略的情况下,如何提高人类-AI团队的表现往往缺乏明确的方法。我们提供了一种决策理论框架,用于刻画信息的价值——进而,代理更好地利用可用信息的机会——在AI辅助决策流程中的应用。我们展示了该框架在模型选择、人类-AI表现的实证评估以及解释设计中的应用。我们提出了一种基于信息的新颖的实例级解释技术,将传统的基于显著性的解释方法适应为在决策过程中解释信息价值。
发布时间: 2/11/2025
查看原文
作者: Bidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh
arXiv:2502.06060v1 宣告类型: 新 摘要: 在多智能体环境中,使用自然语言交流是一种强大的工具,因为它使独立的智能体能够在部分可观测环境下共享信息,并允许与人类进行零样本协调。然而,大多数先前的工作都受到限制,要么依赖于大量的人类示范进行训练,要么缺乏生成自然且有用的交流策略的能力。在这项工作中,我们训练语言模型在没有人类示范的情况下,在自然语言中进行有关环境的有成效的讨论。我们将交流问题分解为倾听和说话。我们的核心思想是利用智能体的目标来预测有关世界的信息作为密集奖励信号,该信号引导交流。具体来说,我们通过训练模型根据讨论预测环境信息来提高他们的倾听技能,并通过根据消息对其他智能体的影响来奖励消息的方式同时提高他们的说话技能,使用多智能体强化学习。为了探讨交流在复杂社交环境中的作用和必要性,我们研究了一个基于《Among Us》的体感社会推理游戏,其中的关键问题是确定敌对冒充者的身份。我们分析了由于我们技术而出现的新兴行为,例如指控嫌疑人并提供证据,并发现它能够促进强大的讨论,将胜率翻倍,与标准的RL相比。我们已在 https://socialdeductionllm.github.io/ 上发布了我们的代码和模型。
发布时间: 2/11/2025
查看原文
作者: Jiabin Tang, Tianyu Fan, Chao Huang
arXiv:2502.05957v1 通告类型: 新颖 摘要: 大型语言模型(LLM)代理已在任务自动化和智能决策方面展示了卓越的能力,推动了像LangChain和AutoGen这样的代理开发框架的广泛应用。然而,这些框架主要服务于拥有丰富技术背景的开发人员——这是一个重要限制,因为全球仅有0.03%的人口具备必要的编程技能。这一明显的可访问性差距引发了一个基本问题:我们能否仅通过自然语言使每个人,无论其技术背景如何,都能够构建自己的LLM代理?为了解决这一挑战,我们引入了MetaChain——一个完全自动化且高度自我发展的框架,该框架使用户能够仅通过自然语言创建和部署LLM代理。作为自主的代理操作系统,MetaChain包含四个关键组件:i) 系统工具,ii) 基于LLM的行动引擎,iii) 自我管理文件系统,以及iv) 自动化代理定制模块。这个轻量但强大的系统能够不依赖编程要求和手动干预的情况下,有效和动态地创建和修改工具、代理和工作流。除了其无代码代理开发能力外,MetaChain还作为通用人工智能助手的多功能多代理系统发挥作用。在GAIA基准上的全面评估显示,MetaChain在通用多代理任务中的有效性超过了现有最先进的方法。此外,MetaChain在检索增强生成(RAG)相关的功能表现始终优于许多其他基于LLM的解决方案。
发布时间: 2/11/2025
查看原文
arXiv:2502.05934v1 宣告类型: 新 摘要: 在什么条件下有能力的人工智能代理可以高效地使其行动与人类偏好一致?更具体地说,在他们足够熟练以与我们协作时,协调需要多长时间,以及在什么情况下它是计算上可行的?这些问题为人工智能对齐的基础问题,有助于定义一个AI代理在人类眼中是“足够安全”的以及具有多大的价值。由于这样的普遍能力强的系统尚未存在,需要理论分析来确定何时可以提供保证—以及这些保证是什么。 我们提出了一种广义的游戏理论框架,该框架在过去的方法中减少了假设,允许我们分析多个目标任务和多个人工智能代理之间对齐的计算复杂性,同时提供了上界和下界。与以往工作通常假设共同的先验知识、理想化的通信或隐式的可处理性不同,我们的框架在最小的假设下正式地描述了对齐的难度。 我们主要的结果表明,即使代理是完全理性和计算上无限制的,对齐仍然可以在任务空间大小的线性时间内以高概率实现。因此,在实际应用场景中,由于任务空间通常随着输入长度呈指数增长,这仍然是不实际的。更加引人注目的是,我们的下界表明,在扩展到大量任务或大量代理时,对齐是无法加速的,突显了大规模对齐的基本计算障碍。 放松这些理想化的假设,我们研究了有噪声消息的计算能力有限的代理(代表着模糊化的意图),结果显示,虽然对齐仍然可以在高概率下成功,但它在任务空间大小、代理数量和任务数量上会导致额外的指数级减速。 最后,我们确定了使对齐更具可行性的条件。
发布时间: 2/11/2025
查看原文
作者: Mansur Arief, Yasmine Alonso, CJ Oshiro, William Xu, Anthony Corso, David Zhen Yin, Jef K. Caers, Mykel J. Kochenderfer
arXiv:2502.05690v1 宣告类型: 新 摘要:世界正进入前所未有的关键矿产需求时期,这驱动力来自全球向可再生能源技术和电动汽车的转型。这一转型在矿产资源开发中带来了独特的挑战,特别是在地质不确定性这一关键特征方面,传统的供应链优化方法未能充分解决。为了应对这一挑战,我们提出了一种新的方法,即部分可观测马尔可夫决策过程(POMDPs),该方法在明确考虑地质不确定性动态性的前提下,优化了关键矿产的采购决策。通过美国锂供应链的案例研究,我们证明基于POMDP的政策在初始储量估计不准确时,能够实现优于传统方法的成果。我们的框架提供了平衡国内资源开发与国际供应多元化定量分析的洞见,为政策制定者提供了在关键矿产供应链中的战略性决策系统方法。
发布时间: 2/11/2025
查看原文