arXiv:2504.07971v1 定性类型: cross
摘要:在大语言模型(LLMs)的时代,为多种多样的人-机器交互系统建立有效的评估方法和标准变得越来越具有挑战性。为了促进更加透明的文档记录,并促进关于人-机器系统评估设计选项的讨论,我们提出了一个评估卡片 SPHERE,它涵盖了五个关键维度:1)评估的是什么?;2)评估是如何进行的?;3)谁参与了评估?;4)评估在什么时候进行?;5)评估是如何验证的?我们使用 SPHERE 对 39 个人-机器系统进行了审查,概述了当前的评估实践和改进领域。我们提供了三项建议,以提高评估实践的有效性和严谨性。
arXiv:2504.08640v1 通告类型: 新
摘要: 一般认为,在人工智能开发生态系统中培养信任与合作是推广可信人工智能系统的关键。通过在进化博弈论框架中嵌入大型语言模型(LLM)代理,本文研究了人工智能开发者、监管者和用户之间的复杂互动,模型在不同监管场景下的战略选择。进化博弈论(EGT)被用来定量地建模每个行为者的困境,而LLM提供了额外的复杂性和细微差别,并使重复博弈和性格特点的纳入成为可能。我们的研究揭示了战略性人工智能代理的新兴行为,这些行为倾向于采取比纯博弈论代理更为“悲观”的立场(不信任和有缺陷)。我们观察到,如果用户完全信任,激励措施可以有效地促进有效监管;然而,有条件的信任可能恶化“社会契约”。因此,建立用户信任与监管者声誉之间的良性反馈似乎是引导开发者创建安全人工智能的关键。然而,这种信任出现的水平可能取决于用于测试的具体LLM。因此,我们的研究结果为人工智能监管系统提供了指导,并有助于预测如果使用战略性LLM代理来辅助监管本身时的结果。
arXiv:2504.08552v1 公告类型: 新增
摘要:人工智能在计算机系统开发中的集成带来了新的挑战:使智能系统对人类具有可解释性。特别是在健康和福祉领域,决策支持系统的透明性使医疗专业人士能够理解并信任自动决策和预测。为应对这一需求,需要工具来指导可解释人工智能系统的开发。在这篇论文中,我们介绍了一个评价框架,旨在支持健康和福祉领域的可解释人工智能系统的开发。此外,我们还展示了一个案例研究,以说明该框架在实际中的应用。我们认为,我们的框架不仅对在医疗保健中开发可解释的人工智能系统具有重要意义,而且对任何对个人具有重大影响的人工智能系统也具有重要意义。
arXiv:2504.08525v1 宣布类型: 新
摘要: 大型语言模型(LLMs)越来越多地被用作进行多步骤任务的自主代理。然而,大多数现有的框架未能维持任务状态的结构化理解,通常依赖于线性提示串联或浅层记忆缓冲区。这导致了脆弱的表现、频繁的虚构以及糟糕的长程一致性。在本文中,我们提出了一种任务记忆引擎(TME),这是一种轻量级且结构化的记忆模块,利用分层的任务记忆树(TMT)跟踪任务执行。树中的每个节点对应于一个任务步骤,存储相关的输入、输出、状态以及子任务关系。我们引入了一种提示合成方法,该方法根据活动节点路径动态生成LLM提示,显著提高了执行一致性并增强了上下文关联。通过多步骤代理任务的案例研究和比较实验,我们展示了TME在最小的实现开销下能够更好地完成任务并具有更高的可解释性行为。TME的完整实现可在 https://github.com/biubiutomato/TME-Agent 获取。
arXiv:2504.08417v1 宣告类型: 新作
摘要:在部分可观测环境中使用强化学习通常是具有挑战性的,因为它要求代理学习系统状态的估计。在多代理环境中,这种挑战会加剧,因为在这些环境中,代理会同时学习并影响系统的潜在状态以及彼此的观察。我们提议使用学习到的系统潜在状态的信念来克服这些挑战,并实现完全分散的训练和执行环境中的强化学习。我们的方法通过自监督的方式利用状态信息预训练一种概率性信念模型。随后,这些包含推理出的状态信息及其不确定性的信念状态被用于基于状态的强化学习算法,以创建一个端到端的模型,用于在部分可观测性下进行合作多代理强化学习。通过将信念和强化学习任务分离,我们能够显著简化策略和价值函数学习任务,并提高收敛速度和最终性能。我们通过设计多种具有不同部分可观测性变体的多代理任务来评估我们提出的方法。
arXiv:2504.08329v1 类型: 新
摘要: 电子健康记录(EHR)基础模型已经在各种医疗任务中展示了改进的性能,是一个值得探索的领域。尽管进展迅速,但存在一个基本的限制:处理超出词汇表的未知医疗代码。这一问题限制了EHR基础模型的通用性和使用不同词汇表训练的模型的集成。为了解决这个问题,我们基于观察性医疗结果伙伴关系(OMOP)通用数据模型(CDM),提出了MedRep,为EHR基础模型提供了集成的医学概念表示和基于OMOP词汇表的图本体的基本数据增强策略。对于概念表示学习,我们通过大型语言模型(LLM)提示为每个概念添加最小定义,并通过OMOP词汇表的图本体增强基于文本的表示。轨迹增强随机替换选择的概念为其他具有密切相关表示的类似概念,让模型在超词汇表的概念上进行练习。最后,我们证明了使用MedRep训练的EHR基础模型在外部数据集中更好地保持了预测性能。我们的代码实现已公开发布在https://github.com/kicarussays/MedRep。
arXiv:2504.08148v1 声明类型: new
摘要:大型语言模型(LLMs)因其在广泛任务中令人印象深刻的能力,在业界获得了显著的关注。然而,LLMs 的广泛应用带来了若干挑战,如与现有应用和基础设施的集成、利用公司专有数据、模型和API,以及满足成本、质量、响应性及其他要求。为了解决这些挑战,目前正从单一模型转向复合人工智能系统,旨在实现更强大、更灵活和更可靠的应用。然而,截至目前的进展大多是孤立的,包含了代理工作流、编程模型和增强的LLM能力的提案,但却缺乏清晰的整体架构愿景。在本文中,我们提出了一种用于企业应用中协调代理和数据的复合人工智能系统的“蓝图架构”。在我们提出的架构中,关键的协调概念是“流”,用于协调代理之间的数据和指令流动。企业和企业中现有的专有模型和API被映射为“代理”,定义在“代理注册表”中,该注册表提供代理元数据和学习表示以供搜索和规划。代理可以通过“数据注册表”利用企业各种模式的数据,该注册表也注册了企业数据。将所有这些整合在一起的是数据和任务“规划者”,它们将任务和查询分解、映射和优化为给定的服务质量(QoS)要求,如成本、准确性和延迟。我们通过一个HR领域的用例展示了架构的实现,并讨论了“代理AI”在企业中的机遇和挑战。
arXiv:2504.08066v1 宣布类型: 新
摘要: AI在不断发挥关键作用,推动科学发现的方式发生变化。我们介绍了《AI科学家-v2》,这是一个端到端的自主系统,能够生成第一篇完全由AI创作并通过同行评审的工作坊论文。该系统连续性地提出科学假设,设计和执行实验,分析和可视化数据,并自主撰写科学论文。与其前身(v1,Lu et al., 2024 arXiv:2408.06292)相比,《AI科学家-v2》去除了对人为编写的代码模板的依赖,有效跨学科领域进行了泛化,并采用了由专用实验管理代理控制的新颖递进式自主系统树搜索方法。此外,我们通过整合Vision-Language模型(VLM)反馈循环来增强AI审稿人组件,以迭代优化图表的内容和美学。我们通过向同行评审的ICLR工作坊提交三篇完全自主的论文来评估《AI科学家-v2》。值得注意的是,一篇论文的评分达到了高于平均人类接受阈值的水平,标志着完全由AI生成的论文成功通过同行评审的第一个实例。这一成就突显了AI在科学研究各个方面的不断增强的能力。我们预计,自主科学研究技术的进一步发展将深刻影响人类知识的生成,实现研究生产力的空前扩展,并显著加速科学突破,对社会产生重大影响。我们已经开源了代码,可访问 https://github.com/SakanaAI/AI-Scientist-v2 以促进这一变革性技术的未来发展。我们还讨论了AI在科学中的角色,包括AI安全性。
arXiv:2504.08014v1 通知类型: 新
摘要: TOPSIS 是一种流行的排序方法,基于理想点和反理想点的加权距离。因此,它被认为与广泛认可的基于效用的方法(这些方法从加权平均效用值构建排序)本质上不同。然而,最近有研究表明,TOPSIS 是这些基于效用的方法的自然推广,因为 TOPSIS 使用的距离可以分解为所谓的效用加权平均(WM)和效用加权标准偏差(WSD)。但是,在标准的 TOPSIS 中,这些两个成分对最终排序的影响无法以任何方式影响。因此,在我们先前结果的基础上,本文提出了修改方案,使得 TOPSIS 的聚合响应 WM 和 WSD,实现对外部影响 WM 和 WSD 的排序的可解释控制。这些修改构成了标准 TOPSIS 方法的自然推广,因为借助它们,推广后的 TOPSIS 可以变成原始的 TOPSIS,或者根据决策者的偏好,可以在 WM 和 WSD 之间进行权衡。在后一种情况下,TOPSIS 逐渐减少为常规的基于效用的方法。总的来说,我们认为提出的推广构成了一个可控应用新的决策者偏好的有趣实际工具。
arXiv:2504.08006v1 宣告类型: 新
摘要: 我们介绍了基于本体图的Petri网的理论基础,以及为此类网设计并实现的Python工具包。在基于本体图的Petri网中,领域知识以本体的形式包含在内。通过这种方式,可以通过Petri网增加一些有价值的知识(特别是在语义关系方面),从而增强模型的推理和控制过程。在实现的方法中,本体图是从根据OWL 2 Web本体语言构建的本体获得的。实现的工具使用户能够定义基于本体图的Petri网的结构和动态。