arXiv:2505.08435v2 宣告类型: 替换-交叉
摘要:近年来,在文本嵌入方面的进步显著提升了多种语言的自然语言理解能力,但波斯语在大规模嵌入研究中的代表性仍然较为不足。在本文中,我们提出了Hakim,一种新型的波斯文本嵌入模型,它在FaMTEB基准测试上比现有方法高出8.5%的性能改进,并且优于之前开发的所有波斯语言模型。作为这项工作的组成部分,我们引入了三个新的数据集——Corpesia、Pairsia-sup和Pairsia-unsup ——以支持有监督和无监督的训练场景。此外,Hakim 设计用于聊天机器人和检索增强生成(RAG)系统,特别是解决需要在这些系统中结合消息历史的检索任务。我们还提出了基于BERT架构的新基线模型。我们的语言模型在各种波斯NLP任务中的一致性较高精度,而以RetroMAE为基础的模型特别适合文本信息检索应用。这些贡献共同为推进波斯语言理解奠定了新的基础。
arXiv:2505.08175v2 宣告类型: replace-cross
摘要:文本到语音系统虽然性能越来越高,但在推理时间上仍然很慢,因此其延迟对于许多创意应用来说是不现实的。我们介绍了Adversarial Relativistic-Contrastive (ARC) 后训练,这是第一个针对扩散/流模型的 adversarial 加速算法,且不基于蒸馏。虽然过去的 adversarial 后训练方法难以与昂贵的蒸馏版本相媲美,但 ARC 后训练是一个简单的过程,即 (1) 将最近的相对 adversarial 表述扩展到扩散/流后训练,并与 (2) 新颖的对比鉴别器目标相结合,以鼓励更好的提示遵从性。我们将 ARC 后训练与对 Stable Audio Open 的一些优化结合,构建了一个能够在 H100 上生成约 75ms 内约 12s 采样率 44.1kHz 的立体声音频,并在移动边缘设备上生成约 7s 的音频,据我们所知,这是最快的文本到语音模型。
arXiv:2505.08167v2 宣言类型: replace-cross
摘要:大型语言模型(LLMs)的快速发展为领域特定的LLMs的进步提供了重要的支持和机会。然而,使用非物质文化遗产(ICH)数据对这些大型模型进行微调不可避免地面临着偏差、知识错误传递和灾难性遗忘等问题。为了解决这些问题,我们提出了一种新颖的训练方法,该方法结合了双向链式思考和奖励机制。该方法建立在专门为非物质文化遗产领域设计的ICH-Qwen大型语言模型之上。提出的这种方法不仅使模型能够进行前向推理,还通过使用反向提问和反向推理激活模型的潜在知识来增强生成答案的准确性。此外,在训练过程中引入了奖励机制以优化决策过程。该机制通过结构和内容评估的不同加权方案提高了模型输出的质量。我们在ICH-Qwen上进行了比较实验,结果表明,与零样本推理、逐步推理、知识蒸馏和问题扩展方法相比,我们的方法在问答任务上具有更高的准确率、Bleu-4和Rouge-L得分。此外,论文通过消融实验突出显示了结合双向链式思考和奖励机制的有效性。此外,还进行了系列泛化实验,结果显示,提出的方法在金融、Wikidata和StrategyQA等多个领域特定数据集和高级模型中取得了改进。这表明该方法在多个领域具有适应性,并为未来跨不同领域的模型训练提供了有价值的方法。
arXiv:2505.07835v2 宣布类型: replace-cross
摘要:二十五年前,制定了智能产品规范,设想实现实时连接,不仅使产品能够收集关于自身的准确数据,还能够评估和影响自身的命运。Auto-ID项目早期的工作集中在创建一个单一的开放标准仓库,用于存储和检索产品信息,为 scalable 连接奠定了基础。十年后,随着低成本RFID系统的出现,人们重新审视了这种方法,这些系统承诺为实体商品和网络化信息环境之间提供低成本连接。此后,区块链、Web3和人工智能的进步引入了前所未有的弹性、共识和自主性。通过利用去中心化身份、基于区块链的产品信息和历史记录,以及智能AI-to-AI协作,本文探讨了这些发展,并概述了智能产品3.0的新规范,说明了去中心化和AI驱动的能力如何使物理AI和日常产品的无缝交互成为可能。
arXiv:2505.07634v2 人工智能类型: 替换-交叉
摘要:人工智能(AI)的快速进化已经从静态的数据驱动模型转变为能够感知并互动于真实环境中的动态系统。尽管在模式识别和符号推理方面取得了进展,当前的AI系统,如大规模语言模型,仍然缺乏实体性,无法与真实世界物理互动。这一限制推动了具身AI的发展,其中自主代理,如类人机器人,必须以类似人类的适应性在非结构化的环境中导航和操作。这一挑战的核心在于“神经大脑”的概念,这是一种中枢智能系统,旨在驱动具身代理具有类似人类的适应性。神经大脑必须无缝地整合多模态感知与认知能力。实现这一点还需要一个适应性记忆系统和硬件软件协同设计,以支持动态环境中的实时操作。本文提出了一个统一的框架,用于具身代理的神经大脑,解决了两个基本挑战:(1)定义神经大脑的核心组件,(2)弥合静态AI模型与现实世界部署所需的动态适应性之间的差距。为此,我们提出了一种生物启发式架构,该架构整合了多模态主动感知、感知-认知-行动功能、基于神经可塑性的记忆存储和更新以及神经形态硬件/软件优化。此外,我们还回顾了在这四个方面的最新研究成果对具身代理的研究,并分析了当前AI系统与人类智能之间的差距。通过综合神经科学的洞察,我们概述了通向开发能够在实际场景中实现人类水平智能的可泛化、自主代理的道路。
arXiv:2505.06795v3 宣告类型: replace-cross
摘要:商品价格波动创造了经济挑战,需要准确的多时域预测。预测铜和原油等商品的价格受到多种相互作用因素(宏观经济、供求、地缘政治等)的复杂影响。当前的模型往往缺乏透明度,限制了其战略上的应用。本文提出了一种正则化稀疏自编码器(RSAE),这是一种用于同时进行多时域商品价格预测和发现可解释潜在市场驱动因素的深度学习框架。RSAE 使用多变量时间序列预测价格在多个时域(例如,1天、1周、1月)的情况。关键的是,其潜在向量 \(\mathbf{z}\) 的 L1 正则化(\(\|\mathbf{z}\|_1\))促使稀疏性,通过学习表示潜在驱动因素(如需求、供给冲击)的因子来促进市场动态的简约解释。从能量模型和稀疏编码中汲取灵感,RSAE 在提高预测准确性的同时学习稀疏表示。在历史上的铜和原油数据以及众多指标上进行评估,我们的研究结果表明,RSAE 在多时域预测准确性和通过其可解释潜在空间提供数据驱动的价格动态见解方面提供了竞争力,并且这是一个与传统黑盒方法的关键优势。
arXiv:2505.04260v2 通知类型: replace-cross
摘要:随着大规模语言模型(LLMs)在作为个人AI助手的能力上不断提高,它们能够输出与用户软偏好相匹配的独特个性化响应的能力对于提升用户体验和留存至关重要。然而,未经训练的普通用户在描述其隐含偏好时的能力较差,往往难以向AI助手传达其偏好。为了解决这一问题,我们利用激活引导在推理过程中引导LLMs与可解释的偏好维度对齐。与需要更长用户历史的记忆式个性化方法不同,激活引导极其轻量级,可以通过线性的强度因子由用户轻松控制。我们将激活引导嵌入到三种不同的交互式聊天机器人界面中,并进行了一个单被试内实验(n=14),以调查终端用户如何个性化他们的对话。结果表明,基于偏好的引导对于将实际对话与隐藏的用户偏好对齐是有效的,并强调了控制、使用性和透明性等不同价值观如何引导用户偏好不同的界面的进一步见解。
arXiv:2505.01956v2 宣告类型: 替换-交叉
摘要: 在战场环境中,对手经常干扰GPS信号,要求使用替代的定位和导航方法。传统的基于视觉的方法,如即时定位与地图构建(Simultaneous Localization and Mapping, SLAM)和视觉航位推测(Visual Odometry, VO),涉及复杂的感觉融合和高计算需求,而范围无关的方法,如DV-HOP,在稀疏、动态的网络中面临精度和稳定性挑战。本文提出了一种基于地标定位(Landmark-Based Localization, LanBLoc)结合战场特定运动模型(Battlefield-Specific Motion Model, BMM)和扩展卡尔曼滤波器(Extended Kalman Filter, EKF)的导航方法。LanBLoc-BMM 的性能被基准测试与三个集成BMM和贝叶斯滤波器的先进视觉定位算法进行了比较,使用包括平均位移误差(Average Displacement Error, ADE)、最终位移误差(Final Displacement Error, FDE)以及新引入的加权风险分数的平均值(Average Weighted Risk Score, AWRS)等指标,评估了合成数据集和仿真数据集。在仿真数据集上,LanBLoc-BMM(结合EKF)在ADE、FDE和AWRS方面表现出色。此外,本文还引入了两种安全导航方法:结合了LanBLoc-BMM(EKF)和一种新型风险意识RRT*(RAw-RRT*)算法的SafeNav-CHull和SafeNav-Centroid,用于障碍物避免和风险暴露最小化。在战场场景的模拟结果表明,SafeNav-Centroid在准确性和风险暴露方面表现优异,同时在路径效率方面表现出色,而SafeNav-CHull则提供了更快的计算速度。
arXiv:2505.01618v2 宣告类型: replace-cross
摘要: 我们研究了在使用不同参数化(即随模型大小变化调整模型和优化器超参数(HPs)的规则)时大型语言模型(LLM)训练的计算效率。某些参数化无法将最优基础HPs(例如学习率)转移到模型深度变化时,要求实践者要么在扩大模型时重新调整这些HPs(昂贵),要么接受次优训练以避免重新调整的高昂成本。即使它们实现了HP转移,我们发展理论表明,在懒学习区间,参数化仍可能存在,其中仅学习靠近线性化特征的层,这会阻碍深度和非线性的有效使用。最后,我们确定并采用了我们称为CompleteP的参数化方法,该方法在所有层中实现了深度化的HP转移和非懒学习。CompleteP使更广泛的模型宽度/深度比例能够保持计算效率,并解锁更适合不同硬件设置和操作上下文的形状。此外,CompleteP在先前的最先进方法上实现了12-34%的计算效率提升。
arXiv:2505.00949v3 宣告类型: replace-cross
摘要: 我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,具有出色的推理能力、推理效率以及适用于企业使用的开放许可。该家族包括三种规模的模型——Nano(8B)、Super(49B)和Ultra(253B),并在与最先进的推理模型如DeepSeek-R1竞争时表现出色,同时提供了更好的推理吞吐量和内存效率。在本报告中,我们讨论了这些模型的训练过程,其中包括使用Llama 3模型的神经架构搜索以加速推理、知识蒸馏以及持续的预训练,然后是一个以推理为重点的后训练阶段,分为两个主要部分:监督微调和大规模强化学习。Llama-Nemotron模型是支持动态推理切换的第一个开源模型,允许用户在推理过程中在标准聊天模式和推理模式之间切换。为了进一步支持开放研究并促进模型开发,我们提供了以下资源:1. 我们在商业上较为宽松的NVIDIA Open Model License Agreement下发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们发布了完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库:NeMo、NeMo-Aligner和Megatron-LM。