arXiv:2502.11962v1 类型: cross
摘要:指令微调(IFT)可以增强大型语言模型(LLMs)的有用性,但可能会降低其真实性。这一权衡关系源于IFT促使LLMs生成在预训练过程中未充分覆盖的长尾知识,从而在处理未见过的任务时产生更有信息量但更不真实的答案。在本文中,我们实证证明了IFT中有用性-真实性权衡的存在,并提出了$\textbf{UNIT}$,一种新的IFT范式来解决这一问题。UNIT促使LLMs识别自身的不确定性,并在响应的结尾明确反映这种不确定性。实验结果表明,经过UNIT微调的模型在保持有用性的同时,能够区分确定性和不确定性陈述,从而减少幻觉现象。
arXiv:2502.11949v1 宣告类型: cross
摘要: 我们提出了一种Explicit Policy-Conditioned Value Functions(EPVF)的缩放策略,显著提高了在具有挑战性的连续控制任务上的性能。EPVF学习一个明确依赖于策略参数的价值函数 V(θ),这使得可以直接基于梯度更新任何策略的参数。然而,当EPVF大规模运行时,它们在策略参数空间中面临参数无限制增长和高效探索的问题。为了解决这些问题,我们利用了基于GPU的仿真器的大规模并行化、大规模批次大小、权重剪辑和缩放扰动。我们的实验结果表明,EPVF可以扩展到解决复杂的任务,例如一个自定义的蚂蚁环境,并能够与当前最先进的深度强化学习(DRL)基线,如近端策略优化(PPO)和软演员-评论家(SAC)展开竞争。我们还进一步探索了之前工作中基于动作的策略参数表示方法和专门的神经网络架构,以有效地处理权重空间特征,这种方法在DRL中之前未曾使用过。
arXiv:2502.11946v1 交叉领域公告类型:跨领域
摘要:实时语音交互作为人机协作的基础接口,具有巨大的潜力。然而,当前开源模型面临语音数据采集成本高、动态控制能力弱、智能水平有限等问题。为了解决这些挑战,本文介绍了Step-Audio,这是第一个生产就绪的开源解决方案。主要贡献包括:1) 一个包含130B参数的统一语音-文本多模态模型,实现了统一的理解和生成,集成了Step-Audio-Chat版本;2) 生成语音数据引擎,建立了可负担的语音克隆框架,并通过蒸馏生成了轻量级的Step-Audio-TTS-3B开源模型;3) 以指令驱动的精细控制系统,能够动态调整方言、情感、唱歌和饶舌;4) 增强的认知架构,增强了工具调用和角色扮演能力,以有效管理复杂任务。基于我们新的StepEval-Audio-360评估基准,Step-Audio在人工评估中达到了最先进的性能,特别是在指令遵循方面。在像LLaMA Question这样的开源基准中,平均性能提高了9.3%,展示了我们致力于推动开放源代码多模态语言技术发展的决心。我们的代码和模型可在https://github.com/stepfun-ai/Step-Audio获取。
arXiv:2502.11941v1 交叉公告类型:
摘要:空气质量预测对于减轻健康影响和指导决策至关重要,但现有模型往往侧重于时间趋势,而忽视了空间概括。我们提出了一种名为AQ-Net的时空再分析模型,用于未来短期内观测站和未观测站的空气质量预测。AQ-Net利用LSTM和多头注意力机制进行时间回归。我们还提出了一种循环编码技术,以确保连续的时间表示。为了学习细粒度的空间空气质量估计,我们在AQ-Net中结合了神经kNN,以探索基于特征的插值方法,从而可以在给定粗糙观测站的情况下填补空间空白。为了展示我们的模型在时空再分析方面的效率,我们使用了2013-2017年中国北部收集的数据进行PM2.5分析。广泛的实验表明,AQ-Net在时空再分析方面表现出色,突显了时空模型的潜在优势,特别是在城市地区,空间和时间变异性的结合对环境动态的捕捉尤为重要。
arXiv:2502.11937v1 交叉主题类型
摘要:尽管基于强化学习(Reinforcement Learning,RL)的交通信号控制(Traffic Signal Control,TSC)方法得到了广泛研究,但在实际应用中仍然存在一些严重问题,例如高昂的学习成本和差的泛化能力。这是因为RL代理的“试错”训练风格使得它们对特定的交通环境极其依赖,这也需要较长的收敛时间。为了解决这些问题,我们提出了一种新的基于联邦模仿学习(Federated Imitation Learning,FIL)框架,名为FitLight,该框架使得RL代理可以无需额外的预训练成本,就可用于任何交通环境中。与现有依赖于预训练数据的模仿学习方法不同,FitLight支持实时模仿学习,并无缝过渡到强化学习。由于我们提出的知识共享机制和新型的混合压力基于智能体设计,RL代理可以在很少几轮 episode 中快速找到最优控制策略。此外,在资源受限的交通信号控制场景中,FitLight支持模型修剪和异构模型聚合,使得RL代理可以在仅有16 KB RAM和32 KB ROM的微控制器上工作。 extensive 实验表明,与现有先进方法相比,FitLight 不仅提供了更好的起点,而且在真实世界和合成数据集上都更快收敛到更好的最终解决方案,即使在极端的资源限制条件下也是如此。
arXiv:2502.11916v1 交叉类型
摘要:自动作文评分(AES)在教育评估中扮演着关键角色,通过提供写作任务的规模化和一致性的评估。然而,传统的AES系统面临三大挑战:(1)依赖手工特征,限制了泛化能力,(2)难以捕捉细微的特征,如连贯性和论证,以及(3)无法处理多模态上下文。在多模态大规模语言模型(MLLM)的时代,我们提出了EssayJudge,这是首个用于评估AES能力的多模态基准,涵盖了词汇级、句子级和话语级的特征。通过利用MLLM在特征特定评分和多模态上下文理解方面的优势,EssayJudge旨在提供精确、富有上下文的评估,无需手动特征工程,解决了传统AES的长期局限性。我们的实验使用了18个代表性MLLM,揭示了与人类评估相比,AES在话语级特征上的绩效差距,突显了基于MLLM的AES研究需要进一步的进步。我们的数据集和代码将在接受后提供。
arXiv:2502.11897v1 Announce Type: cross
摘要:在本文中,我们提出了一种称为动态潜在帧率 VAEM (DLFR-VAE) 的无需训练的范式,它可以利用潜在空间中的自适应时间压缩。现有的视频生成模型通过预训练的 VAEM 应用固定的时间压缩率,但我们观察到真实世界的视频内容表现出显著的时间非均匀性,高动态段包含比静态场景更多的信息。基于这一洞察,DLFR-VAE 根据内容复杂性动态调整潜在帧率。具体来说,DLFR-VAE 包含两项核心创新:(1)动态潜在帧率调度器,将视频划分为时间片段,并基于信息论的内容复杂性自适应确定最优帧率;(2)一种无需训练的适应机制,将预训练的 VAEM 架构转换为可以处理具有可变帧率的特征的动态 VAEM。我们的简单且有效的 DLFR-VAE 可以作为一个即插即用模块工作,无缝地与现有的视频生成模型集成并加速视频生成过程。
arXiv:2502.11896v1 Announce Type: cross
摘要:在连续动作空间中使用强化学习(RL)面临着持续的挑战,例如探索效率低下和收敛于次优解。为解决这些限制,我们提出了CAMEL,这是一个新颖的框架,将LLM生成的次优策略集成到RL训练管道中。CAMEL利用动态动作掩码和自适应ε-掩码机制,在早期训练阶段指导探索,同时逐步使智能体能够独立优化策略。CAMEL的核心在于将基于环境描述和任务目标由LLM生成的可执行Python子优化策略的集成。尽管这些策略简单且硬编码,但它们为RL智能体提供了宝贵的初始指导。为了有效利用这些先验知识,CAMEL使用掩码感知优化来动态限制基于LLM输出的动作空间。此外,ε-掩码机制逐步减少对LLM生成指导的依赖,使智能体能够从受约束的探索过渡到自主策略优化。实验验证显示,CAMEL在Gymnasium MuJoCo环境中是有效的。在Hopper-v4和Ant-v4中,LLM生成的策略显著提高了样本效率,性能达到或超过了专家掩码基线。对于Walker2d-v4,由于LLM难以准确建模双足运动动力学,CAMEL保持了稳健的RL性能,没有明显的退化,突显了该框架在不同任务上的适应性。虽然CAMEL在提高样本效率和缓解收敛挑战方面表现出色,但这些问题仍需进一步研究。未来的工作旨在将CAMEL推广到多模态LLM,以更广泛的观察-动作空间,并自动化策略评估,减少人类干预,增强RL训练管道的可扩展性。
arXiv:2502.11895v1 Announce Type: 对跨领域的介绍
摘要:大型语言模型(LLMs)需要大量的资源来进行训练和推理。量化是一种降低模型参数精度的技术,为提高LLM的效率和可持续性提供了有希望的解决方案。虽然后训练量化方法通常能使每个参数实现4-8位精度,最近的研究表明,从零开始训练具有1.58位每权重参数的LLMs可以在保持模型准确性的前提下,大幅度减少推理时的内存需求和能耗。在这里,我们研究了一种量化感知预训练的训练策略,即首先使用16位精度训练模型,然后过渡到1.58位量化感知训练。我们对11个下游任务的结果表明,这种从16位到1.58位的训练策略比完全从零开始的1.58位训练更优,并且使模型更接近于经过16位培训的模型。我们还研究了在过渡点保留优化器状态和逐步引入量化强度的影响——发现这两种技术可以缓解损失突增的幅度,但这些影响也可以通过进一步的训练来弥补。
arXiv:2502.11887v1 类型: cross
摘要:仿真在海洋机器人技术中具有很高的价值,它提供了在成本效益高且可控的环境中测试海底和表面操作挑战性条件的机会。鉴于实际试验证实的高成本和复杂性,能够捕捉水下环境操作条件的模拟器已成为开发和优化遥控和自主水下车辆算法的关键。本文突出了对石鱼模拟器的最新改进,这是一种高级开源平台,支持海洋机器人解决方案的研发和测试。关键更新包括一系列额外的传感器,如事件驱动摄像头、热成像摄像头和光学流摄像头,以及视觉光通信、支持缆绳操作、推进器建模改进、更灵活的水动力学和声纳精度增强。这些进步和自动化注释工具显著增强了石鱼在海洋机器人研究中的作用,特别是在机器学习领域,因为获取具有已知真实值的训练数据往往极具挑战性或不可能。