arXiv:2504.21643v1 通知类型: 新
摘要:在动态且不确定的现实环境中部署机器人时,实现安全自主导航系统至关重要。本文提出了一种基于神经网络验证技术的分层控制框架,用于设计控制障碍函数(CBF)和策略纠正机制,以确保安全的强化学习导航策略。我们的方法依赖于概率枚举来识别操作中的不安全区域,然后利用这些区域构建适用于任意策略的安全CBF控制层。我们在仿真和真实机器人上验证了此框架,使用标准的移动机器人基准和一个高度动态的水下环境监测任务。这些实验展示了所提出解决方案纠正不安全行为并保持高效导航行为的能力。我们的结果表明,开发基于分层验证的系统以在复杂场景中实现安全稳健的导航行为具有很大潜力。
arXiv:2504.21568v1 宣传类型: 新
摘要: 针对具有多目标属性的群体决策问题,本文提出了一种结合模糊推理和贝叶斯网络的群体决策系统。通过结合阈值、隶属函数、专家经验以及领域知识构建模糊规则库,以应对尺度差异和专家语言变量等定量挑战。设计了一种层次贝叶斯网络,该网络由专家选择的有向无环图节点构成,并利用最大似然估计动态优化条件概率表,对多维指标之间的非线性相关性进行建模,并进行后验概率聚合。在全面的学生评估案例中,该方法与传统的加权评分方法进行了比较。结果表明,该方法在规则准则构建和排名一致性方面均显示出有效性,分类准确率为86.0%,比传统方法的F1值提高了53.4%。此外,在各种群体决策情景下的真实数据集上进行的计算实验评估了该方法的性能和鲁棒性,提供了其在不同情境下的可靠性的证据。
arXiv:2504.21433v1 通知类型: 新
摘要: 本文认为下一代AI代理(NGENT)应跨领域集成,以朝着人工通用智能(AGI)前进。虽然当前的AI代理在机器人学、角色扮演和工具使用等专门任务中非常有效,但它们仍然局限于狭窄的领域。我们建议未来的AI代理应将这些专门系统的优点融合到一个统一的框架中,该框架能够在文本、视觉、机器人学、强化学习、情绪智能等领域进行操作。这种集成不仅是可行的,而且对于实现人类智能所具有的多样性和适应性是必不可少的。人工智能领域技术的融合,以及用户对跨领域能力需求的增加,表明这种集成是可实现的。最终,开发这些多功能代理是实现AGI的关键步骤之一。本文探讨了这种转变的理由,以及实现这一目标的潜在途径。
arXiv:2504.21370v1 宣传类型: 新
摘要:生成式推理模型如OpenAI o3和DeepSeek-R1已通过扩展的链式思考(CoT)提示展示了在推理密集型任务上的强大性能。虽然较长的推理痕迹可以促进对复杂问题解决方案路径的更全面探索,但研究人员观察到这些模型往往“过度思考”,导致推理效率低下。在本文中,我们引入了ShorterBetter,这是一种简单而有效的强化学习方法,使推理语言模型能够在无需人工干预的情况下发现最优的CoT长度。通过每问题采样多个输出,并定义样本最优长度(SOL)为所有输出中的最短正确响应,我们的方法动态地引导模型朝着最优推理长度方向发展。ShorterBetter方法应用于DeepSeek-Distill-Qwen-1.5B模型时,在领域内和领域外的推理任务中,将输出长度最多减少了80%,同时保持了准确性。我们的分析表明,过长的推理痕迹往往反映了推理方向的丧失,因此表明推理模型生成的扩展CoT高度可压缩。
arXiv:2504.21347v1 文本类型: 新增
摘要: 我们介绍了In Real Life (IRL) Ditto,这是一种以人工智能为基础的实体代理,旨在代表远程同事在共享办公空间中出现,即使是在同事不在场的情况下,也能创造实时交流的机会。IRL Ditto提供了一种独特的混合体验,允许现场同事遇到他们远程同事的数字版本,像在现实中那样发起问候、更新或闲聊。我们的研究问题探讨了: IRL Ditto是如何影响共享办公空间中同事之间的互动和关系的?通过为期四天的研究,我们评估了IRL Ditto增强社交联系的能力,通过模拟存在感并在不同社交熟悉度级别上促进有意义的互动。研究发现,增强社交关系在很大程度上取决于参与者与IRL Ditto来源的社交关系基础。本研究为了解实体代理在为分布式团队增强工作场所动态方面所扮演的角色提供了见解。
arXiv:2504.21318v1 类型: 新
摘要: 我们介绍了 Phi-4-reasoning,这是一种拥有140亿参数的推理模型,其在复杂推理任务中表现出色。通过在精心筛选的“可教学”提示集(这些提示集具有合适的复杂性和多样性)以及使用 o3-mini 生成的推理示例上进行监督微调,Phi-4-reasoning 生成了详细的推理链,有效利用了推理时间的计算资源。我们进一步开发了 Phi-4-reasoning-plus,这是一种通过基于结果的强化学习短时期改进的变体,能够生成更长的推理痕迹,从而提供更高的性能。在多种推理任务中,这两种模型的表现显著优于开放权重的大规模模型,如 DeepSeek-R1-Distill-Llama-70B 模型,并接近全 DeepSeek-R1 模型的性能水平。我们的综合评估涵盖了数学和科学推理、编程、算法问题解决、计划和空间理解等多个基准。有趣的是,我们观察到这些改进对通用基准也有一定的转移效果。在本报告中,我们提供了关于培训数据、培训方法和评估的见解。我们表明,仔细的数据筛选对监督微调(SFT)的收益同样适用于推理语言模型,并且可以通过强化学习进一步增强。最后,我们的评估指出了提高我们评估推理模型性能和鲁棒性方法的机会。
arXiv:2504.21277v1
公告类型: 新颖
摘要: 将强化学习(RL)整合到多模态大型语言模型(MLLMs)的推理能力中, rapidly emerged as 一种变革性的研究方向。虽然 MLLMs 显着将大型语言模型(LLMs)拓展到处理各种模态,如视觉、音频和视频,但跨多模态输入进行稳健推理仍然是一个主要挑战。本文系统地回顾了 MLLMs 基于 RL 的推理的最新进展,涵盖关键算法设计、奖励机制创新和实际应用。我们强调了两种主要的 RL 理论框架——无价值方法和基于价值的方法——并分析了 RL 如何通过优化推理轨迹和对齐多模态信息来增强推理能力。此外,我们还提供了广泛的基准数据集、评估协议和现有限制的概述,并提出了未来的研究方向,以解决当前瓶颈,如稀疏奖励、低效的跨模态推理和实际部署限制。我们的目标是为对多模态时代基于 RL 的推理感兴趣的研究人员提供一个全面且结构化的指南。
arXiv:2504.21218v1 通告类型: 新
摘要: 本书介绍了植根于信念形式建模的一种模块化认知架构,其中信念状态被定义为嵌入可导航流形中的动态语义表达动态集合,操作符使这些过程得以实现:同化、抽象、消解、记忆和内省。从哲学、认知科学和神经科学中汲取灵感,我们开发了一个分层框架,能够构建出自我调节的知识代理,这些代理能够进行反思性的、目标导向的思考。这一框架的核心是知识真空:一种语义上惰性的认知状态,它是信念空间的概念起点。从这一基础出发,虚塔作为生成结构涌现出来,并通过内在表征能力进行递归构建。这些理论构想旨在同时在符号系统和神经系统的实现中发挥作用,包括大型语言模型、混合代理和适应性记忆架构。本研究为构建能够以结构化和可解释的方式进行推理、记忆和调节信念的代理提供了基础支撑。
arXiv:2504.21184v1 通知类型: 新
摘要: 情感计算领域专注于识别、解释和回应人类情绪,并在教育、儿童发展和人类健康与福祉方面有着广泛的应用。然而,由于缺乏支持多模态、多领域情绪识别的应用软件框架,开发情感计算管道仍然劳动密集型。这常常导致在为不同应用构建管道时出现重复劳动。尽管最近的框架试图解决这些挑战,但在减少手动工作量和确保跨域通用性方面仍有限制。我们介绍了AffectEval,这是一种模块化和可定制的框架,旨在简化情感计算管道的开发,同时减少开发此类管道所涉及的重复劳动和手动工作量。我们通过复制先前的情感计算实验验证了AffectEval,并展示了我们的框架在编程工作量上最多可减少90%,这是通过减少原始代码行数来衡量的。
arXiv:2504.21131v1 宣告类型: 新颖
摘要: 虽然在启发式搜索中研究的大多数启发式方法仅依赖于状态,但有些方法在搜索过程中积累信息,因此还依赖于搜索历史。现有的一些方法在$\mathrm{A}^*$-类似算法中使用此类动态启发式方法,并引用$\mathrm{A}^*$的经典结果来证明其最优性。然而,这样做忽略了使用可变启发式进行搜索的复杂性。在本文中,我们将动态启发式方法的概念形式化,并在通用算法框架中使用它们。我们研究了一种特定实例化的形式,该形式模拟了使用动态启发式的$\mathrm{A}^*$,并展示了通用最优性结果。最后,我们展示了现有的经典规划方法可以被视为此实例化的特殊情况,从而使我们能够直接应用我们的最优性结果。