arXiv 论文列表

EasyEdit2：一个易于使用的编辑框架，用于修改大型语言模型

作者: Ziwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang

arXiv:2504.15133v1 插件类型: cross 摘要：在本文中，我们介绍了EasyEdit2，这是一种旨在使大型语言模型（LLM）行为可控的插件化可调框架。EasyEdit2支持广泛的测试时干预，包括安全性、情感、个性、推理模式、事实准确性以及语言特性。与其前身不同，EasyEdit2拥有一个专门设计以实现无缝模型控制的新架构。它包含关键模块，如引导向量生成器和引导向量应用器，这些模块可以自动生成并应用引导向量，以影响模型的行为而无需修改其参数。EasyEdit2的一个主要优势是其易用性——用户不需要大量技术知识。只需一个示例，他们就可以有效地指导和调整模型的响应，使精确控制既易于使用又高效。我们实证报告了在不同类型LLM上进行模型控制性能的结果，展示了这些技术的有效性。我们已在GitHub上发布了源代码，网址为https://github.com/zjunlp/EasyEdit，并提供了一个演示笔记本。此外，我们还提供了一个演示视频：https://zjunlp.github.io/project/EasyEdit2/video，用于快速介绍。

发布时间: 4/22/2025

查看原文

神经ATTF： lifelong 多agent 路径规划的可扩展解决方案

作者: Kushal Shah, Jihyun Park, Seung-Kyum Choi

arXiv:2504.15130v1 Announce Type: 跨域摘要：多代理捡取和交付（MAPD）是机器人领域的一个基础问题，特别是在仓储自动化和物流等领域应用中。现有的解决方案往往在可扩展性、适应性和效率方面面临挑战，限制了它们在具有实时计划需求的动态环境中的应用。本文介绍了一种新的算法——神经自适应任务令牌框架（Neural ATTF），该算法结合了优先级引导任务匹配（PGTM）模块与神经驱动的空间-时间A*（Neural STA*），这是一种基于数据的路径规划方法。Neural STA*通过启用引导的、学习到的启发式方法来快速探索搜索空间，并在动态约束下确保避障。PGTM优先处理延迟的代理，并根据代理与这些任务的接近程度动态分配任务，以优化连续性和系统吞吐量。与当前最先进的MAPD算法（包括TPTS、CENTRAL、RMCA、LNS-PBS和LNS-wPBS）的实验评估表明，Neural ATTF在可扩展性、解决方案质量和计算效率方面表现出优越性。这些结果突显了该框架在应对复杂、实时需求的多代理系统在高度不确定环境中的关键需求方面的潜力。

发布时间: 4/22/2025

查看原文

四旋翼深度强化学习及现实部署的一般基础设施和工作流

作者: Kangyao Huang, Hao Wang, Yu Luo, Jingyu Chen, Jintao Chen, Xiangkui Zhang, Xiangyang Ji, Huaping Liu

arXiv:2504.15129v1 交叉公告类型：摘要：将机器人学习方法部署到未结构化的户外环境中进行四旋翼飞行器是一个令人兴奋的任务。使用基于学习的方法在现实环境中操作四旋翼飞行器遇到了几个挑战：大量由模拟器生成的数据用于训练，严格的实时处理需求，以及由于动态和嘈杂的条件引起的模拟到现实的差距。当前的工作在将基于学习的方法应用于四旋翼飞行器的端到端控制方面取得了巨大突破，但很少提到从零开始训练基础设施系统并部署到现实中的问题，这使得难以再现方法和应用。为了弥合这一差距，我们提出一个平台，使端到端的深度强化学习(DRL)策略能够无缝转移。我们整合了训练环境、飞行动力控制、DRL算法、MAVROS中间件堆栈和硬件，形成一个全面的工作流和架构，能够使四旋翼飞行器的策略从零开始训练到几分钟内的现实世界部署。我们的平台提供包括悬停、动态障碍物规避、轨迹跟踪、击打气球和未知环境规划等多种类型的环境，作为物理实验基准。通过广泛的实证验证，我们展示了所提出模拟到现实平台的效率，并在现实世界干扰下的稳健户外飞行性能。更多信息可从我们的网站https://emnavi.tech/AirGym/获取。

发布时间: 4/22/2025

查看原文

科威特1.5B：一种通过语言注入实现的阿拉伯语SLM

作者: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan

arXiv:2504.15120v1 声明类型: cross 摘要: 在AI发展中，增强现有模型的新知识是一项关键任务。本论文提出了一种将新语言整合到大型语言模型（LLM）中的全新方法。我们的方法成功地将一种之前未见过的目标语言整合到现有的LLM中，而不牺牲其先前的知识。我们通过将阿拉伯语注入主要在英语文本上训练的小型开源模型，训练了一个名为Kuwait的参数量为1.5亿的小型模型。我们的方法在各种基准测试中显示了阿拉伯语语言性能的显著提高，平均改进了8%，同时通过最小化原始模型数据量来保留模型的现有知识。这为同时在英语和阿拉伯语上训练全面模型提供了一个经济有效的替代方案。结果突显了在无需大量重新训练或资源密集型过程的情况下，高效扩展语言模型的潜力。

发布时间: 4/22/2025

查看原文

一种由方向场和细节指导的三支路网络用于潜指纹增强

作者: Yurun Wang, Zerong Qi, Shujun Fu, Mingzheng Hu

arXiv:2504.15105v1 交叉类型: cross 摘要: 潜在指纹增强是潜在指纹识别过程中一个至关重要的步骤。现有的基于深度学习的增强方法仍然无法满足实际应用场景的要求，特别是在恢复低质量的指纹区域方面。鉴于潜在指纹的不同区域需要不同的增强策略，我们提出了一种三支路空间融合网络(Triple Branch Spatial Fusion Network, TBSFNet)，该网络同时使用定制的策略增强图像的不同区域。此外，为了提高网络的泛化能力，我们将方向域和细节相关的模块集成到TBSFNet中，并引入了多级特征指导网络(Multi-Level Feature Guidance Network, MLFGNet)。在MOLF和MUST数据集上的实验结果表明，MLFGNet在现有增强算法中表现更佳。

发布时间: 4/22/2025

查看原文

NeuGaze: 重塑未来的脑机接口

作者: Yiqian Yang

arXiv:2504.15101v1 Announce Type: cross 摘要: 传统的脑-计算机接口（BCIs），依赖于昂贵的脑电图或侵入性的植入物，因设置复杂性高和精度有限而难以处理复杂的计算机-人交互。我们介绍了一种名为NeuGaze的新颖的基于网络摄像头的系统，该系统通过利用眼神注视、头部运动和面部表情来实现仅通过标准30 Hz网络摄像头（通常在笔记本电脑中预装）的直观、实时控制。NeuGaze只需要最少的校准，就能达到与常规输入相当的性能，支持精确的光标导航、通过高效技能轮触发按键，以及动态游戏交互，比如在第一人称游戏中击败强大的对手。通过利用运动受损个体保留的上半身功能，NeuGaze消除了对专门硬件的需求，提供了一种低成本、易于访问的BCI替代方案。这一范式赋能了从辅助技术到娱乐的各种应用，重新定义了运动受损用户的人机交互。该项目位于 \href{https://github.com/NeuSpeech/NeuGaze}{github.com/NeuSpeech/NeuGaze}。

发布时间: 4/22/2025

查看原文

快速-缓慢协同优化器：面向生成对抗网络和谐训练的方向

作者: Lin Wang, Xiancheng Wang, Rui Wang, Zhibo Zhang, Minghang Zhao

arXiv:2504.15099v1 优化类型: 横向摘要: 截至目前，典型生成对抗网络（GANs）的训练过程仍然特别敏感于数据属性和超参数，这可能导致剧烈振荡、收敛困难，甚至完全无法收敛，尤其是在训练集的整体方差较大时更为明显。这些现象通常归因于此类网络的训练特性。针对这一问题，本文提出了一种新的智能优化器——快速-缓慢共同推进优化器（FSCO），它在GAN的训练过程中采用强化学习来简化训练过程。具体而言，本文通过让训练步长由智能体控制以提高训练稳定性，并通过可变的学习率使训练过程更加智能化，从而使GANs对步长的敏感度降低。已经在三个基准数据集上进行了实验，验证了所开发的FSCO的有效性。

发布时间: 4/22/2025

查看原文

重新思考多模态在协作问题解决诊断中的潜力（使用大规模语言模型）

作者: K. Wong, B. Wu, S. Bulathwela, M. Cukurova

arXiv:2504.15093v1 交叉类型: cross 摘要：从数字痕迹中检测合作和解决问题行为，以解释学生的问题解决（CPS）能力，是人工智能在教育领域的长期目标。虽然多模态数据和高级模型被认为具有检测复杂CPS行为的潜力，但它们的价值的相关实证证据仍然有限，且存在一些矛盾的证据。在本研究中，我们调查了多模态数据在提高模型性能方面的作用，以诊断78名中学生的CPS亚技能和指标，应用场景为真实教育环境。特别是，我们使用了来自口头数据的文本嵌入和来自音频数据的声音嵌入，在一个多模态分类模型中进行CPS诊断。仅模态和多模态Transformer模型在检测CPS类别方面均优于传统模型。虽然引入多模态并未提高传统单模态模型的性能，但其整合到Transformer模型中，在诊断社会认知CPS类别方面表现出优于单模态Transformer模型的性能。根据研究结果，本文认为，在自动化检测每一个CPS亚技能和指标的最佳性能方面，多模态和选择特定建模技术不应被视作理所当然。相反，它们的价值仅限于某些类型的CPS指标，受到标签复杂性的影响，并取决于数据集中指标的组成。我们总结了关于考虑LLM和多模态在自动化CPS诊断中的价值所需的细微差别，强调了人机互补的必要性，并提出了探索相关模型架构和技术的建议，以改善真实教育环境中CPS诊断。

发布时间: 4/22/2025

查看原文

联邦潜在因子模型：具有隐私保护的偏见感知推荐

作者: Junxiang Gao, Yixin Ran, Jia Chen

arXiv:2504.15090v1 宣告类型: cross 摘要：推荐系统（RS）旨在为用户提供个性化项目推荐，从而提升其整体体验。传统的RS会在中心服务器上收集和处理所有用户数据。然而，这种集中式方法引发了显著的隐私担忧，因为它增加了数据泄露和隐私泄露的风险，这在越来越多注重隐私的用户看来是不可接受的。为了解决这些隐私挑战，已经将联邦学习整合到RS中，确保用户数据的安全。在集中式RS中，通过联合分析所有用户的原始交互数据，可以有效解决评分偏差问题。然而，在联邦RS中，由于隐私保护约束，无法访问原始数据，这成为了一个重大挑战。为了解决这一问题，我们提出了一种联邦偏置感知隐因子（FBALF）模型。在FBALF中，训练偏置明确地被纳入到每个本地模型的损失函数中，从而可以在不牺牲数据隐私的情况下有效消除评分偏差。在三个实际数据集上进行的广泛实验表明，FBALF在推荐准确性方面显著优于其他最先进的联邦RS。

发布时间: 4/22/2025

查看原文

增强AI生成更好AI代码的能力：通过LLMs引导的深度学习项目生成

作者: Chen Xie, Mingsheng Jiao, Xiaodong Gu, Beijun Shen

arXiv:2504.15080v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）在代码生成方面得到了广泛应用，但它们在生成整个深度学习项目方面遇到了困难，因为这些项目具有复杂的结构、较长的函数以及比通用代码更强的领域知识依赖性。开放领域的大语言模型往往缺乏针对特定项目的连贯的上下文指导和领域专长，这使得生成完全符合用户要求的完整代码变得具有挑战性。在本文中，我们提出了一种新的基于规划的代码生成方法——DLCodeGen，专门用于生成深度学习项目。DLCodeGen 预测一个结构化的解决方案计划，为大语言模型生成项目提供全局指导。生成的计划随后被用来检索语义上相似的代码示例，并进一步抽象出代码模板。为了有效地整合这些多步检索增强技术，设计了一种对比学习机制来生成最终代码。我们在为深度学习代码生成构建的数据集上验证了我们方法的有效性。实验结果表明，DLCodeGen 在 CodeBLEU 指标上优于其他基线，提高了 9.7%，在人工评估指标上提高了 3.6%。

发布时间: 4/22/2025

查看原文