arXiv 论文列表

作者: Jiajun Fan, Shuaike Shen, Chaoran Cheng, Yuxin Chen, Chumeng Liang, Ge Liu

arXiv:2502.06061v1 类型: cross 摘要: 近年来，强化学习（RL）在精细调整基于扩散生成模型方面取得了巨大成功。然而，将连续流动生成模型微调以与任意用户定义的奖励函数对齐依然充满挑战，特别是由于过度优化导致的策略崩溃问题以及连续时间流动计算似然成本过高。在本文中，我们提出了一种易于使用且理论基础扎实的RL微调方法，我们称之为在线奖励加权条件流匹配与Wasserstein-2正则化（ORW-CFM-W2）。该方法将RL融入流动匹配框架，以任意奖励函数微调生成模型，而不依赖于奖励的梯度或过滤数据集。通过引入在线奖励加权机制，我们的方法引导模型优先关注数据流形中的高奖励区域。为了防止策略崩溃并保持多样性，我们在方法中引入了Wasserstein-2 (W2) 距离正则化，并在流动匹配中推导出其可计算的上界，有效地平衡了策略优化的探索与利用。我们提供了理论分析以证明该方法的收敛性质和诱导数据分布，并将该方法与具有Kullback-Leibler (KL) 正则化的传统RL算法建立联系，从而更全面地理解我们方法所依赖的机制和学习行为。在包括目标图像生成、图像压缩和图文对齐等任务的广泛实验中，我们展示了该方法的有效性，其中该方法实现了最优策略收敛，同时允许在奖励最大化和多样性保留之间进行可控的权衡。

发布时间: 2/11/2025

查看原文

接近最优的离线KL正则化上下文臂拉伯问题的样本复杂性在单一策略可集中性下的结果

作者: Qingyue Zhao, Kaixuan Ji, Heyang Zhao, Tong Zhang, Quanquan Gu

arXiv:2502.06051v1 声明类型: cross 摘要: KL-正则化策略优化已经成为基于学习的决策制定的基础工具，而其理论理解仍然非常有限。尽管在解决KL-正则化上下文臂拉格问题的样本复杂性方面取得了进展，但现有的样本复杂性界要么在单策略集中度情况下为$\tilde{O}(\epsilon^{-2})$，要么在所有策略集中度情况下为$\tilde{O}(\epsilon^{-1})$。在本文中，我们提出了第一个在单策略集中度情况下样本复杂性为$\tilde{O}(\epsilon^{-1})$的离线上下文臂拉格算法。该算法适用于通用函数逼近，并基于“不确定性的悲观主义”原则设计。我们证明的核心思想利用了KL正则化的强凸性和真实奖励与其悲观估计之间的条件非负差距，将均值型风险上界细化到其极端情况。这反过来导致了一种新颖的基于协方差的分析，有效地绕过了对函数类中任意两个函数之间的差异进行统一控制的需要。我们的算法接近最优性通过$\tilde{\Omega}(\epsilon^{-1})$下界得到了证明。此外，我们将该算法扩展到上下文对战臂拉格，并实现了类似的接近最优样本复杂性。

发布时间: 2/11/2025

查看原文

大型记忆模型

作者: Jikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis

arXiv:2502.06049v1 Announce Type: cross 摘要：本文介绍了大型内存模型（LM2），这是一种增强有辅助内存模块的解码器-only Transformer 架构，旨在解决标准Transformer在多步推理、关系论证以及合成长上下文分布信息方面的局限性。所提出的LM2引入了一个内存模块，该模块充当上下文表示存储库，通过交叉注意力与输入令牌交互，并通过门控机制进行更新。为保持Transformer的一般用途能力，LM2保留了原始的信息流动，同时整合了一个互补的内存路径。在BABILong基准测试上的实验结果显示，LM2模型在任务上平均比内存增强的RMT模型高出37.1%，比基线Llama-3.2模型高出86.3%。LM2在多跳推理、数值推理和大规模上下文问答方面表现出色。在MMLU数据集上，它比预训练的vanilla模型提高了5.0%，证明了其内存模块在一般任务上不会降低性能。进一步地，在我们的分析中，我们探讨了内存解释性、内存模块的有效性以及测试时的行为。我们的发现强调了显式内存对增强Transformer架构的重要性。

发布时间: 2/11/2025

查看原文

基于GPT模型的提示工程技术在安全代码生成中的基准测试

作者: Marc Bruni, Fabio Gabrielli, Mohammad Ghafari, Martin Kropp

arXiv:2502.06039v1 安全公告类型: 交叉摘要：提示工程减少了大型语言模型（LLMs）中的推理错误。然而，其在减轻LLM生成的代码中漏洞方面有效性的研究仍较少。为了解决这一差距，我们实现了一个基准，自动评估各种提示工程技术对代码安全的影响。该基准利用了两个经过同行评审的提示数据集，并使用静态扫描器大规模评估代码安全性。我们在GPT-3.5-turbo、GPT-4o和GPT-4o-mini上测试了多种提示工程技术。结果表明，对于GPT-4o和GPT-4o-mini，一种专注于安全性的提示前缀可以将安全漏洞的发生率降低56%。此外，所有测试的模型在使用迭代提示技术时，能够检测和修复先前生成的代码中41.9%至68.7%的漏洞。最后，我们引入了一个“提示代理”，展示了最有效的技术如何在实际开发工作流中应用。

发布时间: 2/11/2025

查看原文

带有设计输入的可验证压倒性 Transformer 模型

作者: Lev Stambler, Seyed Sajjad Nezhadi, Matthew Coudron

arXiv:2502.06038v1 类别: cross 摘要: 我们开发了一个算法，给定训练好的变换器模型 $\mathcal{M}$ 作为输入，以及长度为 $n_{fix}$ 的字符串 $s$ 和整数 $n_{free}$，该算法可以在时间复杂度和空间复杂度为 $\widetilde{O}(n_{fix}^2 + n_{free}^3)$ 的情况下生成一个数学证明，证明 $\mathcal{M}$ 被 $s$ “压垮”了。当字符串 $s$ 加上任何额外字符串 $t$ 后模型的输出 $\mathcal{M}(s + t)$ 对字符串 $t$ 的值完全不敏感，且当 $t$ 的长度 $\leq n_{free}$ 时，我们说 $\mathcal{M}$ 被 $s$ “压垮”。在证明过程中，我们还证明了一种特别强烈的形式的“过度挤压”，我们利用它来约束模型的行为。我们的技术使用计算机辅助证明来确立这种与操作相关的关于变换器模型的保证。我们实验证明了该算法在包含注意力头、层规范化、MLP/ReLU 层和 RoPE 位置编码的一层变换器上的有效性。我们相信，这项工作为获得训练好的变换器模型的有效保证奠定了基础。

发布时间: 2/11/2025

查看原文

柯尔莫哥洛夫-阿诺尔德-傅里叶网络

作者: Jusheng Zhang, Yijia Fan, Kaitong Cai, Keze Wang

arXiv:2502.06018v1 宣告类型: cross 摘要：尽管柯尔莫哥洛夫-阿诺尔德基可解释网络（KAN）具有很强的理论表达性，但在高维任务中，它们面临着参数膨胀和高频特征捕捉的挑战。为此，我们提出了柯尔莫哥洛夫-阿诺尔德-傅里叶网络（KAF），该网络有效地集成了一系列可训练的随机傅里叶特征（RFF）以及一种新颖的混合GELU-傅里叶激活机制，以平衡参数效率和频谱表示能力。我们的关键技术贡献包括：（1）通过矩阵关联性质将KAN的双重矩阵结构进行合并，从而大幅减少参数量；（2）引入可学习的RFF初始化策略，以消除高维逼近任务中的频谱失真；（3）实现了一种适应性混合激活函数，在训练过程中逐步增强频率表示。全面的实验表明，我们的KAF在包括视觉、自然语言处理、音频处理和微分方程求解任务在内的各个领域均表现出卓越的性能，有效地结合了理论可解释性与实用性和计算效率。

发布时间: 2/11/2025

查看原文

LLM作为语法特征标注器对非洲裔美国英语的分析

作者: Rahul Porwal, Alice Rozet, Pryce Houck, Jotsna Gowda, Sarah Moeller, Kevin Tang

arXiv:2502.06004v1 Announce Type: 不交叉摘要：标准英语（AAE）在自然语言处理（NLP）中提出了独特的挑战。这项研究系统地比较了可用的NLP模型——基于规则的模型、基于变压器的模型和大型语言模型（LLMs）——在识别AAE的关键语法特征方面的能力，特别是惯用语态和多重否定。这些特征因其独特的语法复杂性和出现频率而被选中。评估涉及句子级别的二分类任务，使用了零样本和少量样本两种策略。分析结果显示，虽然LLMs相比于基准模型显示出潜力，但它们受文本中最近和不相关的特征（如形式化）的影响。这项研究强调了改进模型训练和架构调整的必要性，以更好地适应AAE的独特语言特征。数据和代码可供获取。

发布时间: 2/11/2025

查看原文

从铅笔到像素：关于儿童、成人和AI创意绘画的系统研究

作者: Surabhi S Nath, Guiomar del Cuvillo y Schr\"oder, Claire E. Stevenson

arXiv:2502.05999v1 宣告类型: cross 摘要: 我们能否在考虑智能代理的技术技能和风格固有的差异的同时，推导出计算指标来量化绘画中的视觉创造力？为了回答这个问题，我们收集了一个新的数据集，其中包括1338幅由儿童、成人和AI完成的创造性绘画作品。我们描述了绘画的两个方面——(1) 风格和(2) 内容。对于风格，我们定义了墨水密度、墨水分布和元素数量的度量。对于内容，我们使用专家标注的类别来研究概念多样性，并使用图像和文本嵌入来计算距离度量。我们比较了儿童、成人和AI绘画的风格、内容和创造力，并构建了简单的模型来预测专家和自动化创造力评分。我们发现不同群体在风格和内容上存在显著差异——儿童的绘画有更多组件，AI的绘画具有更高的墨水密度，而成人的绘画揭示了最大的概念多样性。值得注意的是，我们强调了通过专家和自动化评分获得的创造力判断之间的错位，并讨论了其含义。通过这些努力，我们的工作（据我们所知）提供了首个用于研究文本之外的人类和人工创造力的框架，并试图探讨通用的创造力原则。我们的数据和脚本可在GitHub上获取。

发布时间: 2/11/2025

查看原文

多旋翼 aerial 机器人中基于深度强化学习的运动控制

作者: Gaurav Shetty, Mahya Ramezani, Hamed Habibi, Holger Voos, Jose Luis Sanchez-Lopez

arXiv:2502.05996v1 类别: cross 摘要：本文研究了深度强化学习（DRL）在无人机增材制造（AM）中的应用，以解决运动控制挑战。基于无人机的增材制造在大型或危险环境中提供了灵活和自主的材料沉积。然而，在不同载荷和潜在干扰条件下实现具有鲁棒性的实时多旋翼飞行器控制仍然是具有挑战性的。传统的PID控制器通常需要频繁调整参数，限制了它们在动态场景中的应用。我们提出了一种DRL框架，该框架能够在AM任务中执行航点导航的多旋翼无人机学习适应性控制策略。我们通过设计来处理日益复杂性的课程学习方案，在DDPG（深度确定性策略梯度）和TD3（延迟双深度确定性策略梯度）之间进行了比较。我们的实验表明，当引入质量变异性时，TD3始终能够平衡训练稳定性和准确性，并实现更高的成功率。这些发现为增材制造中鲁棒和自主的无人机控制提供了一条可扩展的道路。

发布时间: 2/11/2025

查看原文

基于Translatotron的端到端语音转语音翻译：一项前沿回顾

作者: Jules R. Kala, Emmanuel Adetiba, Abdultaofeek Abayom, Oluwatobi E. Dare, Ayodele H. Ifijeh

arXiv:2502.05980v1 交叉类型公告摘要：级联基于的语音到语音翻译长期以来被视为一个基准，但受到许多问题的困扰，如将一种语言的语音翻译成另一种语言所需的时间以及复合错误。这些问题的原因在于级联方法使用了诸如语音识别、语音到文本翻译和最终的文本到语音翻译等多种方法的组合。Google 设计了 Translatotron，这是一个基于序列到序列的直接语音到语音翻译模型，以解决与级联模型相关联的复合错误问题。今天，Translatotron 模型有三个版本：Translatotron 1、Translatotron 2 和 Translatotron 3。第一版旨在证明直接语音到语音翻译的可能性，它发现不如级联模型有效，但产生了令人鼓舞的结果。Translatotron 2 是 Translatotron 1 的改进版本，其结果与级联模型相似。Translatotron 3 是模型的最新版本，在某些方面优于级联模型。在本文中，将全面回顾语音到语音翻译，特别是重点介绍 Translatotron 模型的所有版本。我们还将展示 Translatotron 是连接非洲语言和其他规范化语言之间差距的最佳模型。

发布时间: 2/11/2025

查看原文