arXiv 论文列表

基于 pivot 翻译的单模型集成框架 neural machine translation

作者: Seokjin Oh, Keonwoong Noh, Woohwan Jung

arXiv:2502.01182v1 Announce Type: cross 摘要：尽管在神经机器翻译方面取得了显著进展，但对于低资源语言对而言，性能仍不尽如人意。多种系统集成是一种广泛采用的方法来提升性能，通常通过组合概率分布来实现。然而，以往的方法面临着训练多个模型时计算成本高的挑战。此外，对于黑盒模型，在每次解码步骤中平均词级概率是不现实的。为了解决多模型集成方法的问题，我们提出了一种基于枢纽的单模型集成策略。该策略由两个步骤组成：基于枢纽的候选生成和事后聚合。在第一步中，我们通过枢纽翻译生成候选。这只需一个模型即可实现，并且可以从高资源枢纽语言中传递知识，从而生成不仅多样而且更准确的候选。接下来，在聚合步骤中，我们从生成的候选中选择k个高质量候选并合并它们，生成一个超越现有候选的最终翻译。我们的实验结果表明，通过利用枢纽翻译中的候选来捕获源句子的微妙之处，我们的方法可以生成高质量的翻译。

发布时间: 2/4/2025

查看原文

低资源细调中的联合定位和激活编辑

作者: Wen Lai, Alexander Fraser, Ivan Titov

arXiv:2502.01179v1 Announce Type: cross 摘要：参数高效微调（PEFT）方法，如LoRA，常用于适应大语言模型（LLMs）。然而，在只有几百个例子的低资源场景中，标准的PEFT方法的效果有限。近期可解释性研究的进步激发了激活编辑技术的出现，这种技术可以修改特定模型组件的激活。由于其极小的参数计数，这些方法对于小数据集显示出了潜力。然而，他们的性能高度依赖于能够识别正确的要编辑的模块，并且在不同数据集上往往缺乏稳定性。在本文中，我们提出了一种联合定位和激活编辑（JoLA）的方法，该方法联合学习（1）哪些Transformer的头需要编辑；（2）干预应该是加性的、乘性的，还是两者皆有；（3）干预参数本身——应用于头输出的加性偏置向量或乘性缩放因子。通过对涵盖常识推理、自然语言理解和自然语言生成的三个基准的评估，我们展示了JoLA在所有基准上均优于现有方法。

发布时间: 2/4/2025

查看原文

AtmosSci-Bench: 评估大型语言模型在大气科学领域的 Recent Advance

作者: Chenyue Li, Wen Deng, Mengqian Lu, Binhang Yuan

arXiv:2502.01159v1 Announce Type: cross 摘要：大型语言模型（LLMs）的迅猛发展，特别是在其推理能力方面的进步，为解决大气科学中的复杂挑战提供了变革性的潜力。然而，有效地利用LLMs需要一个稳健且全面的评估基准。为应对这一需求，我们提出了AtmosSci-Bench，这是一种新型基准，旨在系统地评估LLMs在大气科学五大核心问题类别上的表现：水文、大气动力学、大气物理、地球物理学和物理海洋学。我们采用基于模板的问题生成框架，能够实现可扩展且多样的选择题库，这些题目是从研究生水平的大气科学问题中精心编排而成的。我们对代表性LLMs进行了全面评估，将其分为四组：指令微调模型、高级推理模型、数学增强模型和领域特定气候模型。我们的分析提供了一些关于LLMs在大气科学中的推理和解决问题能力的一些有趣洞察。我们认为，AtmosSci-Bench可以作为推进LLMs在气候服务中的应用的关键一步，通过提供一个标准和严格的评估框架。我们的源代码目前可以在https://github.com/Relaxed-System-Lab/AtmosSci-Bench获得。

发布时间: 2/4/2025

查看原文

使用通用多提示词进行解锁

作者: Yu-Ling Hsu, Hsuan Su, Shang-Tse Chen

arXiv:2502.01154v1 宣告类型: 交叉摘要: 在过去几年中，大型语言模型（LLMs）取得了迅速的发展，革新了各种应用程序，并显著提高了便利性和生产力。然而，伴随其令人印象深刻的性能，伦理问题和新型攻击，如逃逸攻击，也日益凸显。尽管大多数提示方法侧重于为个别案例优化对抗输入，这在处理大型数据集时会导致更高的计算成本。较少的研究关注更通用的场景，即训练一个可以转移到未见过的任务的通用攻击者。在本文中，我们介绍了JUMP，一种基于提示的方法，旨在使用通用多提示逃逸攻击LLMs。我们还为防御措施调整了我们的方法，称之为DUMP。实验结果表明，我们优化通用多提示的方法优于现有技术。

发布时间: 2/4/2025

查看原文

量子机器学习：面向机器学习 practitioners 和研究人员的实战教程

作者: Yuxuan Du, Xinbiao Wang, Naixu Guo, Zhan Yu, Yang Qian, Kaining Zhang, Min-Hsiu Hsieh, Patrick Rebentrost, Dacheng Tao

arXiv:2502.01146v1 声称类型: cross 摘要: 这篇教程意在为具有人工智能背景的读者介绍量子机器学习（QML）——一个迅速发展的领域，旨在利用量子计算机的强大功能重塑机器学习的格局。为了保持自洽性，这篇教程涵盖了基础原理、代表性QML算法、潜在应用以及训练性、泛化能力和计算复杂性等关键方面。此外，还在https://qml-tutorial.github.io/提供了实用的代码示例，以说明实际应用并促进动手学习。这些元素 together 为广大读者提供了一个全面的 QML 最新进展概览。通过连接经典机器学习与量子计算之间的鸿沟，这篇教程为那些希望参与 QML 并探索量子时代人工智能前沿的人提供了宝贵的资源。

发布时间: 2/4/2025

查看原文

ASAP: 使模拟与现实物理对齐以学习敏捷的人形全身技能

作者: Tairan He, Jiawei Gao, Wenli Xiao, Yuanhang Zhang, Zi Wang, Jiashun Wang, Zhengyi Luo, Guanqi He, Nikhil Sobanbab, Chaoyi Pan, Zeji Yi, Guannan Qu, Kris Kitani, Jessica Hodgins, Linxi "Jim" Fan, Yuke Zhu, Changliu Liu, Guanya Shi

arXiv:2502.01143v1 交叉类型: cross 摘要: 人类机器人在执行人体动作、全身技能方面具有无与伦比的灵活性潜力。然而，由于仿真与现实世界的动力学不匹配，实现敏捷且协调的全身动作仍是一项重大挑战。现有的方法，如系统辨识(SysID)和域随机化(DR)方法，往往依赖于劳动密集型的参数调整，或者导致策略过于保守，牺牲了敏捷性。在本文中，我们提出了一种名为ASAP（.aligning simulation and real-world physics）的两阶段框架，旨在解决动力学不匹配问题并使人类机器人能够执行敏捷的全身动作。在第一阶段，我们使用重新定向的人类动作数据在仿真中预先训练动作跟踪策略。在第二阶段，我们在现实世界中部署策略并收集实际数据以训练一个增量（残差）动作模型，该模型可以弥补动力学不匹配。然后，ASAP将预训练的策略与集成到仿真的增量动作模型进行微调，以有效对齐实际动力学。我们在三个传输场景中评估了ASAP：IsaacGym到IsaacSim、IsaacGym到Genesis以及IsaacGym到现实世界的Unitree G1人形机器人。我们的方法在各种动态动作下显著提高了敏捷性与全身协调性，与系统辨识(SysID)、域随机化(DR)和增量动力学习baseline相比，减少了跟踪误差。ASAP使先前难以实现的高敏捷运动成为可能，证明了增量动作学习在连接仿真与现实动力学方面的潜力。这些结果表明，通过delta动作学习从仿真到现实的转化方向具有开发更具表现力和敏捷性的机器人潜力。

发布时间: 2/4/2025

查看原文

超越是或否：用于量化合规违规程度的预测性合规监测方法

作者: Qian Chen, Stefanie Rinderle-Ma, Lijie Wen

arXiv:2502.01141v1 宣告类型：交叉摘要：现有大多数过程合规监控方法以事后的形式检测合规违规行为，只有基于谓词的预测专注于预测这些违规行为。然而，基于谓词的预测提供了二元的是/否合规概念，缺乏衡量正在进行的过程实例在约束规定的目标状态方面偏离程度的能力。因此，能够量化违规程度会为组织提供更深入的服务性能洞见，使他们能在减少或缓解非合规风险方面做出明智的决策。因此，我们提出两种预测性合规监控方法以填补这一研究缺口。第一个方法将二元分类问题重新表述为一种结合了分类和回归的混合任务，而第二个方法则采用多任务学习方法同时明确预测违规案例的合规状态和违规程度。在这项研究中，我们专注于时间约束，因为它们几乎在任何应用领域都很重要，例如医疗保健。在合成和真实事件日志上的评估表明，我们的方法能够量化违规程度，同时在合规预测方面与最新的方法保持相当的性能。

发布时间: 2/4/2025

查看原文

自我组织交互空间：在移动和分布式环境中构建泛在应用的框架

作者: Shubham Malhotra

arXiv:2502.01137v1 交叉领域：交叉摘要：无处不在和移动计算的快速采用导致移动应用程序在网络边缘产生了前所未有的数据生产和消费率。这些应用程序通常需要数据交换、行为协调和协作等交互，这些交互通常是由云服务器介导的。虽然云计算对于分布式系统是有效的，但时延、成本和间歇性连接等问题仍然存在。随着5G技术的出现，具备位置感知能力和设备到设备（D2D）通信的功能使得更分布式和自适应的架构成为可能。本文引入了自我组织交互空间（SOIS），这是一种新颖的开发普适应用的架构框架。SOIS 利用移动节点的动态和异构性质，使其能够根据其个体和社会背景形成自适应的组织结构。该框架提供了两种关键抽象，用于使用组织思维模式和机制来建模和开发普适应用，以及适应动态组织结构。通过案例示例和模拟移动众包应用的性能评估，展示了SOIS 的可行性和优势。结果突显了其增强效率和减少对传统云模型依赖的潜力，为移动和分布式环境中的创新解决方案铺平了道路。

发布时间: 2/4/2025

查看原文

无线网络中动态资源分配的深度强化学习

作者: Shubham Malhotra

arXiv:2502.01129v1 分类: cross 摘要：本文研究了深度强化学习（DRL）算法在无线通信系统动态资源分配中的应用。创建了一个包括基站、多天线和用户设备的环境。然后，使用RLlib库应用了各种DRL算法，如深度Q网络（DQN）和近端策略优化（PPO）。这些算法基于优化资源分配的能力进行了比较，重点关注不同的学习率和调度策略的影响。研究结果表明，算法的选择和学习率对系统性能有显著影响，DRL相比传统方法提供了更高效的资源分配。

发布时间: 2/4/2025

查看原文

战斗影响者游戏：潜力博弈的纳什均衡结构及其对价值对齐的影响

作者: Young Wu, Yancheng Zhu, Jin-Yi Cai, Xiaojin Zhu

arXiv:2502.01127v1 影响者类型: 横向交叉摘要: 当多个影响者试图争夺接收者的注意力时，他们的影响策略必须考虑到彼此的存在。我们引入了“竞争影响者游戏”（Battling Influencers Game, BIG），这是一种多玩家同时行动的非零和博弈，以提供对该社会现象的游戏论描述。我们证明BIG是一种潜在博弈，它要么有一个，要么有无限多个纯纳什均衡（NEs），这些纯NEs可以通过凸优化找到。有趣的是，我们还证明，在任何纯NE中，除了至多一个影响者外，所有影响者都必须最大限度地夸大其行为。换句话说，影响者为了预测其他影响者会部分抵消其影响，而采取非 truthful 和极端的行为是合理的。我们讨论了BIG对价值对齐的影响。

发布时间: 2/4/2025

查看原文