arXiv:2504.16273v1 宣布类型: 新
摘要:大语言模型(LLMs)在临床决策支持方面显示出了潜力,但在分流应用方面仍然尚未得到充分探索。我们通过两个关键维度系统地研究了LLMs在急诊部门分流中的能力:(1)面对分布偏移和缺失数据的鲁棒性,以及(2)跨性别和种族的交割偏见的反事实分析。我们评估了多种基于LLM的方法,包括继续预训练和上下文学习,以及机器学习方法。我们的结果显示LLMs表现出更优越的鲁棒性,并探讨了促成这些有前景的LLM方法的关键因素。此外,在这种情况下,我们识别出了LLMs偏好中的特定交集,特别是在性别和种族的特定交集中。LLMs通常表现出性别差异,但在某些种族群体中最为明显。这些发现表明,LLMs编码了与特定临床场景或特定特征组合相关的偏好。
arXiv:2504.16209v1 类型:新
摘要:本文提供了对三种最近的层次化计划修复算法的理论和经验比较:SHOPFixer、IPyHOPPER和Rewrite。我们的理论结果表明,这三种算法对应于计划修复问题的三种不同定义,导致在算法的搜索空间、可以解决的修复问题以及可以进行的修复类型方面存在差异。理解这些区别对于为任何给定应用选择合适的修复方法至关重要。
基于理论结果,我们在一系列基准规划问题上对这些算法进行了经验评估。我们的经验结果提供了关于这些系统在规划树上的重规划、按时间回溯和跨越计划树进行回跳等算法特性基础上的修复运行时性能以及解决的修复问题覆盖率的更详细见解。
arXiv:2504.16115v1 通告类型: 新
摘要:场提供了一种灵活的方法来描述由相互作用和动态组件组成的复杂系统。特别是,其中一些动态和随机系统可能会表现出旨在达成特定目标的目标导向行为,我们将其称为“智能场”。然而,由于它们的内在复杂性,仍难以开发这些系统的正式理论描述,并有效地将其描述转化为实际应用。在本文中,我们提出了三个基本原则——完全配置、局部性、目的性——来建立理解智能场的理论框架。此外,我们从人工智能应用的角度探讨了设计这些场的方法论。这项初步研究旨在为未来理论发展和理解以及利用此类目标驱动的动态随机场的实际进步奠定基础。
arXiv:2504.15041v2 宣布类型: 替换-交叉
摘要:终身行人重识别(LReID)面临着在保留旧知识的同时适应新信息的关键挑战。现有的解决方案包括基于回顾的方法和非基于回顾的方法来解决这一挑战。基于回顾的方法依赖于知识蒸馏,在蒸馏过程中不断积累遗忘。非基于回顾的方法无法充分学习每个领域的情况,随着时间的推移导致遗忘。为了解决这些问题,我们提出了一种新颖的分布感知遗忘补偿(DAFC)模型,该模型在无需使用旧示例或知识蒸馏的情况下探索跨域共享表示学习和领域特定分布的集成。我们提出了一种文本驱动的提示聚合(TPA)方法,利用文本特征丰富提示元素,引导提示模型学习每个实例的详细表示,这可以增强身份信息的区分并为领域分布意识奠定基础。然后,基于分布的意识和集成(DAI)设计了一种专用专家网络,以捕捉每个领域特定的分布,并适应性地将它们整合到高维空间中的共享区域。通过这种方式,DAI可以优化和增强跨域共享表示学习,同时减轻灾难性遗忘。此外,我们开发了一种知识整合机制(KCM),包括实例级区分和跨域一致性对齐策略,分别促进模型从当前领域适应性地学习新知识,并促进获取的领域特定分布之间的知识整合学习。实验结果表明,我们的DAFC优于现有方法。我们的代码可在https://github.com/LiuShiBen/DAFC获取。
arXiv:2504.14945v2 宣告类型: replace-cross
摘要: 最近在大规模推理模型(LRMs)方面的进步表明,通过强化学习(RL)和简单的规则奖励,复杂的多步推理和自我反思等行为可以出现。然而,现有的零RL方法本质上是“on-policy”的,这限制了学习仅限于模型自身的输出,并且未能获取超出初始能力的推理能力。我们引入了LUFFY(在off-policy指导下的学习推理),这是一个框架,它将off-policy推理轨迹添加到零RL中。LUFFY在训练过程中通过结合off-policy示范和on-policy滚动生成动态平衡模仿和探索。值得注意的是,我们提出了通过正则化重要性采样进行策略塑形,以避免混合策略训练过程中的表面化和僵硬模仿。令人惊讶的是,LUFFY在六个数学基准测试中实现了超过+7.0的平均收益,并且在分布外任务中的优势超过+6.2分。它还在泛化方面明显超越了基于模仿的监督微调(SFT)。分析表明,LUFFY不仅能够有效地模仿,还能够超越示范进行探索,提供了一条利用off-policy指导训练具有泛化能力的推理模型的可扩展途径。
arXiv:2504.14411v2 宣告类型: replace-cross
摘要:互联网正经历从“网站互联网”到“代理站点互联网”的历史变革。虽然传统的网站为基础提供了信息的托管和传播,但现在一个新的前沿领域正在出现,其中代理站点成为互联网的中心枢纽,每个代理站点承载一个或多个AI代理,这些代理接收任务、解决问题并交付可执行的解决方案,标志着数字景观的重大转变,并代表着下一代在线生态系统。在这幅愿景中,AIOS,即AI代理操作系统,作为开发、部署和执行AI代理的服务器,是代理站点互联网的基本基础设施。
在本文中,我们介绍了AIOS Server,这是一种运行时框架,用于托管代理并将分散的代理在全球范围内进行协作。AIOS Server提供了一种利用Model Context Protocol (MCP)和JSON-RPC的通信协议,以实现代理与代理或人类与代理之间的交互。每个AIOS节点作为服务器来承载和执行代理,同时支持点对点协调,无需依赖中心化的编排。在AIOS Server的基础上,我们进一步提出了全球首个实际部署的代理站点互联网(AIOS-IoA),包括AgentHub用于代理注册和发现以及AgentChat用于互动通信,可在 https://planet.aios.foundation 获取。基于分布式哈希表(DHT)和Gossip协议的代理发现机制作为代理站点互联网的搜索引擎。本文为构建代理站点互联网——一个自主代理成为网页基本公民的新范式提供了实用的基础。实现代码可在 https://github.com/agiresearch/AIOS.Server 获得,并将集成到AIOS主分支 https://github.com/agiresearch/AIOS 中。
arXiv:2504.14320v2 通知类型: 交叉替换
摘要:基于文本的提示仍然是生成式AI的主要交互模式,但对于小企业主(SBOs)等新手用户来说,这往往会引入困难,特别是他们在广告等专业领域表达创意目标时。通过对英国六位SBOs的形成性研究,我们识别出三个关键挑战:通过提示表达品牌直觉的困难、内容生成过程中及之后进行详细调整和改进的有限机会、以及频繁产生缺乏品牌特异性的通用内容。作为回应,我们提出了ACAI(广告与启发的人工智能协作创作),这是一种多模态生成AI工具,旨在通过超出传统提示界面来支持新手设计师。ACAI采用了一个结构化的输入系统,由三个面板组成:品牌、受众和目标、以及灵感板。这些输入使用户能够传达与品牌相关的内容和视觉偏好。本研究为生成系统的HCI研究做出了贡献,展示了结构化界面如何将用户定义的上下文置于首位、改善对齐并增强新手创造性工作流程中的共同创造控制。
arXiv:2504.13945v2 宣布类型: 替换交叉
摘要:大型视觉语言模型(LVLMs)的快速发展在文档理解方面取得了显著进展,特别是在光学字符识别(OCR)和多语言翻译方面的应用。然而,现有的LVLM评估,如广泛使用的OCRBench,主要集中在验证它们对简短文本和简单布局文本回复的正确性,而对于它们理解和处理复杂布局设计的长文本的能力则相对忽视,这在多文化沟通中尤为重要。本文我们提出了一种专门的评估框架——菜单OCR和翻译基准(MOTBench),强调菜单翻译在跨文化交流中的重要作用。MOTBench 要求LVLMs 准确识别和翻译菜单上的每道菜及其价格和单位项目,全面评估其视觉理解和语言处理能力。我们的基准由包含中文和英文菜单组成,这些菜单具有复杂的布局、多种字体以及不同语言中的文化特定元素,同时伴有精确的人工注释。实验结果显示,我们自动评估的结果与专业的手动评估结果高度一致。我们评估了一系列公开的最先进的LVLMs,并通过分析其输出来识别其性能的强项和弱项,为未来LVLM的发展提供宝贵的指导。MOTBench 可在 https://github.com/gitwzl/MOTBench 获取。
arXiv:2504.12867v3 宣告类型: replace-cross
摘要: 人类语言不仅仅是信息的传递;它是一种深刻的情感交流,也是个人之间的连接。尽管文本到语音(TTS)模型取得了巨大进步,但它们仍然面临在生成语音中控制情感表达的挑战。在这项工作中,我们提出了一种名为 EmoVoice 的新型可控制情感 TTS 模型,利用大型语言模型(LLMs)来实现精细的自由风格自然语言情感控制,并采用了一种音素增强变体设计,该设计使得模型能够并行输出音素令牌和音频令牌以增强内容一致性,受思维链(CoT)和模态链(CoM)技术的启发。此外,我们引入了一种高质量的 40 小时英语情感数据集 EmoVoice-DB,该数据集包含表现力强的语音和细粒度的情感标签,并配有自然语言描述。EmoVoice 仅使用合成训练数据在英语 EmoVoice-DB 测试集上实现了最先进的性能,并在我们在内的数据集上实现了中文 Secap 测试集的先进性能。我们进一步研究了现有情感评估指标的可靠性以及它们与人类感知偏好的一致性,并探索使用最先进的多模态大语言模型 GPT-4o-audio 和 Gemini 评估情感语音。演示样本可在 https://yanghaha0908.github.io/EmoVoice/ 获取。数据集、代码和检查点将被发布。
arXiv:2504.10915v2 交叉替换通知类型
摘要:自主人工智能代理的崛起,能够独立地感知、推理和行动,标志着数字生态系统运行、治理和演变方式的根本转变。随着这些代理超越集中式基础设施,它们暴露出了基础的身份验证、问责制和伦理对齐方面的漏洞。三个关键问题随之出现:身份:代理是什么?或代理是谁?问责制:其行为能否被验证、审计和信任?伦理共识:自主系统能否可靠地与人类价值观对齐并防止有害的新兴行为?我们提出了新的LOKA协议(知识化代理的分层编排),这是一种统一的系统级架构,用于构建具有伦理约束且可互操作的人工智能代理生态系统。LOKA引入了一种提出的分散式通用代理身份层(UAIL),用于分散式验证身份;以意图为中心的通信协议,用于在多种代理之间进行语义协调;以及去中心化的伦理共识协议(DECP),这可能使代理能够基于共享的伦理基准做出情境感知的决策。LOKA依托于分布式标识符(DIDs)、可验证凭证(VCs)和后量子密码学等新兴标准,提出了一个可扩展且具有未来弹性的多代理AI治理蓝图。通过将身份、信任和伦理嵌入协议层本身,LOKA为跨数字和物理域运行的责任、透明且自主的人工智能生态系统奠定了基础。