arXiv:2502.00443v2 控制类型: 替换-交叉
摘要: 模型预测控制(MPC)是流行的一种控制工程实践,但需要对模型有扎实的了解。无需模型的预测控制(MFPC),作为今日的一个热点问题,也与人工智能领域的强化学习(RL)有关,本文通过一个新的最优控制视角和模型自由控制(MFC)领域的近期进展,将其重新阐述为一个具有常系数的一阶线性微分方程。这降低了计算负担,实现起来也非常直接。两个非线性示例,一个化学反应器和一个两罐系统,展示了我们的方法。与需要过程模型专业知识的HEOL设置相比,后者仅略微优越。通过复杂ANN架构识别两罐系统可能表明,在控制领域,乃至更广泛的人工智能领域,完全建模及其相应的机器学习机制并不总是必要的。
arXiv:2502.00043v2 Announce Type: replace-cross
摘要:建议利用联网自动驾驶车辆(CAV)来缓解由CAV和人为驾驶车辆(HDV)组成的混合交通流中的交通波动。本文提出了一种自适应深度Koopman预测控制框架(AdapKoopPC),用于调节混合交通流。首先,基于Koopman理论设计了一种自适应轨迹预测深度网络(AdapKoopnet),用于模拟HDV的跟随行为。AdapKoopnet能够通过高维空间中的线性模型来表示HDV的行为。其次,在混合交通流平滑过程中采用模型预测控制,其中,CAV的线性动态模型与AdapKoopnet中的线性预测模块相结合,嵌入为AdapKoopPC中的预测模型。最后,使用HighD自然驾驶数据集验证了所提出的AdapKoopnet的预测性能,并通过数值仿真验证了AdapKoopPC的控制性能。结果表明,AdapKoopnet在预测HDV轨迹方面比基线非线性模型更准确。此外,与基线方法相比,所提出的AdapKoopPC在缓解交通波动方面表现出更有效的控制性能,尤其是在CAV渗透率较低的情况下,具有更低的计算成本。所提出的AdapKoopPC的代码是开源的。
arXiv:2501.05496v2 宣告类型: 替换交叉
摘要:原型驱动的联邦学习已成为一种有前途的方法,能够在保持模型通用性的同时,通过共享轻量级原型在数据异质性的情况下将知识转移到客户端之间。然而,现有的方法通常直接从本地模型中收集原型,由于客户端之间存在有偏数据分布和模型架构差异,这不可避免地会在表征学习中引入不一致性。在本文中,我们发现统计异质性和模型异质性共同形成了表征不一致、分类器发散和偏斜原型对齐的恶性循环,这对客户端的性能产生了负面影响。为了打破这个恶性循环,我们提出了一种名为基于语义锚的联邦学习(FedSA)的新框架,以解耦原型生成与局部表征学习。我们引入了一种新颖的观点,即使用简单而有效的语义锚作为原型,指导本地模型学习一致的表征。通过结合语义锚,我们进一步提出基于语义锚的正则化,包括增强对比学习和基于语义锚的分类器校准,以纠正特征提取器并跨客户端校准分类器,从而在确保一致决策边界的前提下实现原型内的紧凑性和类别间可分性。然后,我们使用这些一致且具有区分性的原型来更新语义锚,这会逐步鼓励客户端协作学习具有稳健泛化的统一数据表示。在统计异质性和模型异质性设置下的广泛实验表明,FedSA 在各种分类任务中显著优于现有的基于原型的联邦学习方法。
arXiv:2501.04444v2 通知类型: 替换-交叉
摘要:识别带口罩和不带口罩的相同面部对于确保安全、访问控制和公共安全中的身份识别一致性至关重要。这项能力在执法、医疗保健和监控等场景中尤其重要,即便有面部遮挡,也必须保持准确的识别。本研究关注的是通过使用余弦相似度作为主要技术来识别带口罩和不带口罩的相同面部的挑战。随着口罩的广泛使用,传统的面部识别系统面临显著的准确度问题,因此亟需开发能够在戴口罩情况下可靠识别个体的方法。基于此原因,本研究提出了带口罩和不带口罩面部匹配模型(MUFM)。该模型采用迁移学习,使用Visual Geometry Group (VGG16) 模型来提取显著的面部特征,随后利用K-近邻(K-NN)算法进行分类。利用余弦相似度度量来比较相同个体的带口罩和不带口罩的面部。这种方法是一个新颖的贡献,因为在使用余弦相似度识别相同个体的带口罩和不带口罩问题上,此前尚未涉及。通过将这些先进方法结合起来,研究展示了即使在有口罩的情况下也能有效地识别个体,解决了传统系统中的一个重要限制。使用数据是这项工作的重要组成部分,通过从三个不同来源收集和准备图像数据集,特别是其中的一些数据是真实的,为这项研究提供了全面的力量。所使用的图像数据集已经被从三个不同的数据集中收集,这些数据集包含相同面部的带口罩和不带口罩的图像。
arXiv:2501.01005v2 公告类型: 替换-交叉
摘要:由注意力机制驱动的 Transformers 成为了大型语言模型(LLMs)的基础。随着这些模型的扩展,高效的 GPU 注意力内核对于高吞吐量和低延迟的推理变得至关重要。多样化的 LLM 应用要求灵活且高性能的注意力解决方案。我们提出了 FlashInfer:一种可定制且高效的 LLM 服务注意力引擎。FlashInfer 使用块稀疏格式和可组合格式来解决 KV 缓存存储异构性,从而优化内存访问并减少冗余。它还提供了一个可定制的注意力模板,通过即时编译(JIT)实现各种环境的适应。此外,FlashInfer 的负载均衡调度算法能够适应用户请求的动态性,同时保持与 CUDAGraph 的兼容性,后者需要静态配置。FlashInfer 已被集成到如 SGLang、vLLM 和 MLC-Engine 等领先的 LLM 服务框架中。全面的内核级和端到端评估表明,FlashInfer 能够在多种推理场景中显著提升内核性能:与最先进的 LLM 服务解决方案相比,FlashInfer 在 LLM 服务基准测试中实现了 29-69% 的跨 token 延时减少,在长上下文推理中实现了 28-30% 的延迟减少,在并行生成的 LLM 服务中实现了 13-17% 的提速。
arXiv:2412.12639v3 宣告类型:替换横跨
摘要:在推测性解码中,如何在最小化编排延迟和提高推测准确性以增强大型语言模型的推理速度之间取得最佳平衡,仍然是一个重大挑战。在本文中,我们介绍了一种名为Falcon的创新半自回归推测性解码框架,旨在增强编排者的并行性和输出质量。Falcon结合了连接顺序凝视蒸馏技术,该技术增强了同一块内的令牌间依赖性,从而提高了推测准确性。我们提供了全面的理论分析以阐明其背后的机制。此外,我们引入了一种自定义解码树,该树允许编排者在单次前向传递中生成多个令牌,并在需要时容纳多个前向传递,从而增加生成的令牌数量,显著提高整体接受率。基准数据集MT-Bench、HumanEval和GSM8K上的全面评估表明,Falcon具有优越的加速能力。该框架在测试Vicuna和LLaMA2-Chat模型系列时,实现了无损加速比从2.91倍到3.51倍,而使用的是仅仅相当于两个Transformer层的紧凑编排者架构。这些结果超越了现有的为LLM设计的推测性解码方法,包括Eagle、Medusa、Lookahead、SPS和PLD。
arXiv:2411.07007v2 逆强化学习(IRL)类型:替换交叉
摘要:在逆强化学习(IRL)中,智能体通过与环境的交互来复制专家演示。传统上,IRL 被视为一种对抗博弈,其中对手在奖励模型中进行搜索,而学习者通过反复的 RL 程序优化奖励。这种博弈解决方法既计算成本高昂又难以稳定。在本文中,我们提出了一种新的 IRL 方法,采用了直接策略优化的方法:通过将回报线性分解为后继特征和奖励向量的内积,我们设计了一个通过学习者和专家特征之间的差距进行策略梯度下降的 IRL 算法。我们的非对抗性方法不需要学习奖励函数,并且可以无缝地与现有的演员-评论家 RL 算法结合使用。令人惊讶的是,我们的方法在无需专家动作标签的状态仅依赖设置中也能工作,而行为克隆(BC)无法解决这一问题。实验证明,我们的方法能够从单个专家演示中学到,并在各种控制任务中实现了更好的性能。
arXiv:2410.21897v3 Announce Type: replace-cross
摘要:音乐情绪识别(MER)旨在识别给定音乐作品中传达的情绪。然而,在MER领域,目前可用的公开数据集样本量有限。最近,提出了基于片段的方法,这些方法在较短的音频片段上训练骨干网络,而不是整个音频片段,从而自然地增加了训练样本数量而无需额外资源。然后,将预测的片段级结果聚合以获得整首歌曲的预测。最常用的方法是片段继承包含该片段的剪辑标签,但整个剪辑中的音乐情绪并非始终一致。这样做会导致标签噪声,并使训练容易过拟合。为了解决标签噪声问题,我们提出了一种半监督自我学习(SSSL)方法,该方法可以在自我学习的方式下区分带有正确和错误标签的样本,从而有效地利用扩增的片段级数据。在三个公开的情绪数据集上的实验表明,所提出的方法可以实现更好的或相当的性能。
arXiv:2410.16739v2 宣告类型: 替换-交叉
摘要:Soft Actor-Critic算法因其在广泛范围的深度强化学习任务中表现出稳健的性能而受到广泛认可,它利用tanh变换将动作限定在有界范围内。然而,这种变换引起了分布偏移,扭曲了原始的高斯动作分布,并可能导致策略选择次优动作,特别是在高维动作空间中。在这篇文章中,我们对这种分布偏移进行了全面的理论和实证分析,推导了经过tanh变换后动作的精确概率密度函数(PDF),以阐明转换分布的模式与预期动作输出之间的偏差。我们通过在HumanoidBench基准中的高维任务上的广泛实验验证了这些理论洞察。我们的发现表明,考虑到这种分布偏移显著提升了SAC的表现,导致累计奖励、采样效率和任务可靠性方面的显著改进。这些结果强调了对SAC及其类似算法的一个关键考虑:解决由变换引起的分布偏移是优化在高维深度强化学习环境中策略效果的关键,从而扩展了SAC在复杂控制任务中的鲁棒性和适用性。
arXiv:2410.13828v2 宣告类型: 替换-交叉
摘要: 来自人类反馈的强化学习(RLHF)已成为语言模型(LM)对齐的主要方法。其核心在于使用差距损失来进行偏好优化,仅通过喜欢的响应和不喜欢的响应之间的差异来指定理想的LM行为。在本文中,我们指出了差距方法中常见的一个陷阱——对喜欢的响应和不喜欢的响应个别而言的理想LM行为的未充分指定,这导致在差距增大时产生了两个意外后果:(1)不喜欢的响应(例如,不安全的响应)的概率可能会增加,从而可能导致潜在的安全对齐失败。(2)喜欢的响应的概率可能会降低,即使这些响应是理想的。我们解释了这些有问题的行为背后的原因:差距方法将喜欢的概率变化与不喜欢的概率梯度关联起来,反之亦然,这往往会导致喜欢的概率无法增加而不喜欢的概率却在减少,从而导致两种概率的同步增加或减少。我们将这种效应称为内在存在于差距目标中的梯度纠缠。形式上,我们推导出在哪些一般差距对齐目标下,梯度纠缠变得令人担忧:喜欢的和不喜欢的对数概率梯度的内积相对于各自的梯度范数较大。我们理论地研究了在对齐语言模型时为何内积可以较大,并通过实验验证了我们的发现。我们框架的实证推断扩展到了解释各种偏好优化算法的训练动态中的重要差异,并提出了潜在的算法设计,以缓解差距方法的理想行为未充分指定的问题,并因此改进语言模型的对齐。