arXiv 论文列表

作者: Emil Njor, Colby Banbury, Xenofon Fafoutis

arXiv:2502.12690v1 声称类型: cross 摘要:微小型机器学习（TinyML）有望通过在低功耗嵌入式系统上运行机器学习模型来革新医疗保健、环境监测和工业维护等领域。然而，成功的TinyML部署所需的复杂优化继续阻碍其广泛应用。简化TinyML的一个有前景的途径是自动机器学习（AutoML），它可以把复杂的优化工作流简化为可访问的关键决策。值得注意的是，面向硬件的神经网络架构搜索，即计算机根据预测性能和硬件指标来寻找最优的TinyML模型，已经获得了显著的进展，产生了当今最具广泛使用的TinyML模型。然而，仅限于神经网络架构的优化可能证明是不够的。因为TinyML系统必须在极严格的资源约束下运行，输入数据配置的选择，例如分辨率或采样率，也对整体系统效率产生了深远影响。因此，实现真正最优的TinyML系统需要同时调校输入数据和模型架构。尽管这一点非常重要，但“数据感知神经网络架构搜索”仍然研究不足。为解决这一缺口，我们提出了一种新的最先进的数据感知神经网络架构搜索技术，并在新型TinyML“唤醒视觉”数据集上展示了其有效性。我们的实验表明，在不同的时间和硬件约束下，数据感知神经网络架构搜索始终能够发现优于纯架构聚焦方法的TinyML系统，突显了数据感知优化在推动TinyML发展中的关键作用。

发布时间: 2/19/2025

查看原文

多步对齐作为马尔可夫游戏：具有收敛 Guarantees 的乐观在线梯度下降方法

作者: Yongtao Wu, Luca Viano, Yihang Chen, Zhenyu Zhu, Kimon Antonakopoulos, Quanquan Gu, Volkan Cevher

arXiv:2502.12678v1 类型: cross 摘要: 人类反馈强化学习（RLHF）已经在使大型语言模型与人类偏好相一致方面取得了巨大成功。虽然许多方法如DPO已经展示了强大的性能，但这些方法将与语言模型的交互视为一个多臂 bandit 问题，这限制了它们在多轮对话常见的实际场景中的应用。此外，DPO依赖于Bradley-Terry模型假设，这并不能充分捕捉人类偏好的非传递性。在这篇论文中，我们通过将对齐问题建模为两名玩家的常和马尔可夫博弈来解决这些挑战，在这场博弈中，每名玩家试图在整个对话过程中最大化对阵另一方的胜率。我们的方法多步偏好优化（MPO）基于自然行为-批评框架~\citep{peters2008natural}。我们在此基础上进一步开发了OMPO算法，该算法基于乐观在线梯度下降算法~\citep{rakhlin2013online,joulani17a}。理论上，我们对这两种算法的收敛性进行了严格的分析，并表明OMPO需要$\mathcal{O}(\epsilon^{-1})$次策略更新才能收敛到$\epsilon$-近似的纳什均衡。我们还通过多轮对话数据集和数学推理数据集验证了我们方法的有效性。

发布时间: 2/19/2025

查看原文

具有眼球运动注意力的脉冲视觉变换器

作者: Shuai Wang, Malu Zhang, Dehao Zhang, Ammar Belatreche, Yichen Xiao, Yu Liang, Yimeng Shan, Qian Sun, Enqi Zhang, Yang Yang

arXiv:2502.12677v1 宣告类型: 跨域摘要：将脉冲神经网络（SNNs）与视觉变换器（ViTs）相结合，在实现能源效率和高性能方面具有潜力，特别适合边缘视觉应用。然而，基于SNN的ViTs与它们的ANN对应物之间仍然存在显著的性能差距。在这里，我们首先分析了基于SNN的ViTs性能有限的原因，并确定了vanilla自我注意力机制与时空脉冲序列之间的不匹配。这种不匹配导致了空间相关性下降和有限的时间交互。为了解决这些问题，我们从生物性眼跳注意力机制中寻求灵感，引入了一种创新的跳动脉冲自我注意（SSSA）方法。具体来说，在空间域中，SSSA采用了一种新颖的基于脉冲分布的方法，以有效地评估SNN基于的ViTs中的Query和Key对的相关性。在时间维度上，SSSA使用了一个眼跳交互模块，该模块在每个时间步长上动态关注选定的视觉区域，并通过时间交互显著增强对整个场景的理解。基于SSSA机制，我们开发了基于SNN的视觉变换器（SNN-ViT）。在各种视觉任务上的广泛实验表明，SNN-ViT在保持线性计算复杂度的同时实现了最先进的性能。SNN-ViT的有效性和效率突显了其在功率敏感的边缘视觉应用中的潜力。

发布时间: 2/19/2025

查看原文

Speech-FT：一种增强语音表示模型的方法，而不牺牲泛化能力

作者: Tzu-Quan Lin, Wei-Ping Huang, Hao Tang, Hung-yi Lee

arXiv:2502.12672v1 论文类型: cross 摘要: 语音表示模型在各种任务中非常有效于提取通用特征。虽然微调可以增强这些表示以适应特定应用，但往往会牺牲它们的泛化能力。为了解决这一挑战，我们提出了一种名为Speech-FT的微调策略，该策略利用模型合并来保持泛化能力，同时仍能受益于微调。Speech-FT在不同的微调场景下均有效，并且兼容各种类型的语音表示模型，提供了一个通用的解决方案。Speech-FT 提供了一种高效且实用的方法，在预训练之后进一步改善通用语音表示。

发布时间: 2/19/2025

查看原文

大型推理模型的隐含风险：R1 的安全性评估

作者: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang

arXiv:2502.12659v1 安全类型: 交叉摘要：大型推理模型的快速进展，如OpenAI-o3和DeepSeek-R1，已显著提升了复杂推理能力，使其超越了非推理大型语言模型（LLMs）。然而，这些增强的能力，尤其是结合了如DeepSeek-R1的开源访问，引发了严重的安全担忧，特别是在滥用方面。在本文中，我们对这些推理模型进行了全面的安全评估，利用已建立的安全基准来评估其是否符合安全规定。此外，我们研究了它们对敌对手段的易感性，如脱管和提示注入，以评估其在实际应用中的稳健性。通过多方面的分析，我们发现了四个关键发现：（1）开源R1模型与o3-mini模型在安全基准和攻击方面存在显著的安全差距，表明需要在R1上投入更多安全努力。（2）精简推理模型在安全性性能方面逊于与其安全对齐的基础模型。（3）模型的推理能力越强，回答不安全问题时可能造成的潜在危害越大。（4）R1模型的思维过程比其最终答案更容易引发安全问题。我们的研究揭示了推理模型安全性含义，并突显了进一步提高R1模型安全性的必要性以缩小差距。

发布时间: 2/19/2025

查看原文

一刀切不适用：个性化对话式辅导代理用于数学教学

作者: Ben Liu, Jihan Zhang, Fangquan Lin, Xu Jia, Min Peng

arXiv:2502.12633v1 类型: cross 摘要: 大型语言模型（LLMs）在各种智能教育系统中被越来越多地应用，模拟人导师以促进人机交互的有效性。然而，以往的研究往往忽视了识别和适应个体学习者特征的重要性。这种适应对于提高学生参与度和学习效率至关重要，特别是在数学教学中，多样的学习风格需要个性化的方法来促进理解和热情。在本文中，我们提出了一种用于数学教学的个性化对话式辅导代理（PACE）。PACE 根据费尔德和斯illo曼学习风格模型模拟学生的学习风格，针对每位学生的个性进行了对齐。这样，我们的 PACE 可以有效评估学生的人格，从而开发出与他们独特学习风格相共鸣的个性化教学策略。为了进一步增强学生对知识的理解，PACE 使用苏格拉底教学方法提供即时反馈并鼓励深度思考。通过构建个性化教学数据并训练模型，PACE 展示了其识别并适应每位学生独特需求的能力，显著改善了整体的学习体验和结果。此外，我们建立了多方面的评估标准并进行了广泛分析，以评估个性化教学的表现。实验结果表明，与现有方法相比，我们的模型在个性化教育体验和激发学生动力方面具有优越性。

发布时间: 2/19/2025

查看原文

基于评分的扩散策略与最优运输相结合的强化学习兼容方法

作者: Mingyang Sun, Pengxiang Ding, Weinan Zhang, Donglin Wang

arXiv:2502.12631v1 宣布类型: cross 摘要：扩散策略在从演示中学习复杂行为方面表现出潜力，特别是在需要精确控制和长期规划的任务中。然而，它们在遇到分布偏移时的稳健性面临挑战。本文探讨了通过与环境的在线交互来改进基于扩散的模仿学习模型的可能性。我们提出了OTPR（Optimal Transport-guided score-based diffusion Policy for Reinforcement learning fine-tuning），这是一种新颖的方法，该方法将扩散策略与使用最优运输理论的强化学习相结合。OTPR利用Q函数作为运输成本，并将策略视为最优运输映射，从而实现高效且稳定的微调。此外，我们引入了掩码最优运输来使用专家关键点指导状态-动作匹配，并采用基于兼容性的重采样策略以增强训练稳定性。在三个模拟任务上的实验表明，与其他现有方法相比，OTPR在性能和稳健性方面表现更优，尤其是在复杂和稀疏奖励环境中。总之，OTPR提供了一种有效框架，用于结合IL和RL，实现灵活且可靠的策略学习。代码将在 https://github.com/Sunmmyy/OTPR.git 释放。

发布时间: 2/19/2025

查看原文

使用代理方法自动化对大型语言模型的提示泄露攻击

作者: Tvrtko Sternak, Davor Runje, Dorian Grano\v{s}a, Chi Wang

arXiv:2502.12630v1 通报类型:横跨多个领域的研究摘要：本文提出了一种评估大型语言模型（LLMs）对抗提示泄漏的新颖方法——系统级提示或专有配置的暴露。我们定义提示泄漏是对安全部署LLMs的关键威胁，并引入了一种使用代理团队测试LLMs鲁棒性的框架。利用AG2（以前称为AutoGen），我们实现了一个多代理系统，其中合作代理被赋予探测和利用目标LLM以揭示其提示的任务。借鉴传统加密安全定义，我们将一个提示泄漏安全的系统定义为一个攻击者无法区分两类代理的系统：一类是初始化为原始提示的，另一类是去除了所有敏感信息的提示。在安全系统中，代理的输出对攻击者来说不可区分，从而确保敏感信息的安全。这种借鉴加密安全的标准为评估和设计安全的LLMs提供了严格的标准。本文建立了对抗性测试提示泄漏的系统方法，填补了自动化威胁建模与实际LLM安全之间的差距。您可以在GitHub上找到我们关于提示泄漏探测的实现。

发布时间: 2/19/2025

查看原文

DeepResonance：通过以音乐为中心的多路指令调优提升多模态音乐理解

作者: Zhuoyuan Mao, Mengjie Zhao, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji

arXiv:2502.12623v1 交叉公告类型摘要：音乐大规模语言模型（LLMs）的最近进展显著提高了音乐理解任务的效果，这些任务涉及模型分析和解释各种音乐元素的能力。这些改进主要集中在整合音乐和文本输入。然而，将诸如图像、视频以及文本音乐特征等其他模态纳入以增强音乐理解的潜力尚未得到探索。为解决这一问题，我们提出了DeepResonance，这是一种通过多向指令调整多模态音乐理解LLM，并使用多向对齐的音乐、文本、图像和视频数据进行微调的方法。为此，我们构建了三个名为Music4way-MI2T、Music4way-MV2T和Music4way-Any2T的多向训练和评估数据集，旨在使DeepResonance能够整合视觉和文本音乐特征内容。我们还引入了多采样的ImageBind嵌入和预对齐的Transformer，以增强输入文本LLM之前的各种模态融合，从而为多向指令调整定制DeepResonance。我们的模型在六个音乐理解任务中均取得了最先进的性能，突显了辅助模态的好处以及DeepResonance的结构优势。我们计划开源这些模型和新构建的数据集。

发布时间: 2/19/2025

查看原文

一种增强图深层强化学习框架，用于解决航空降落问题

作者: Vatsal Maru

arXiv:2502.12617v1 宣告类型: cross 摘要：飞机着陆问题是航空运输和管理中面临的挑战性问题之一。挑战在于按照顺序安排到达的飞机，以优化成本和延误。解决这个问题的方法多种多样，大多数基于运筹学算法和元启发式方法。尽管传统方法在某些因素上表现更佳，但在解决实时重新调度和计算可扩展性方面仍存在问题。本文提出了一个新颖的深度强化学习（DRL）框架，该框架结合了图神经网络与演员-评论家架构，以解决飞机着陆问题（ALP）。本文介绍了三个关键贡献：基于图的状态表示，能够高效地捕捉飞机之间的时空关系；一种专门设计的演员-评论家架构，用于处理着陆调度中的多个竞争性目标；以及一种跑道平衡策略，确保高效利用资源的同时满足安全约束。实验结果表明，训练后的算法在不同问题集上进行测试后，结果与运筹学算法具有竞争力。在标准基准数据集上的实验结果表明，与混合整数规划（MIP）相比，计算时间减少了99.95%，与先来先服务（FCFS）方法相比，跑道通过量提高了38%。因此，提出的解决方案与传统方法具有竞争力，并实现了显著的进展。值得注意的是，该方法不需要重新训练，使其特别适合工业部署。该框架在一秒内生成解的能力能够实现实时重新调度，满足空中交通管理的关键要求。

发布时间: 2/19/2025

查看原文