arXiv 论文列表

作者: Simon Rampp, Andreas Triantafyllopoulos, Manuel Milling, Bj\"orn W. Schuller

arXiv:2412.11943v2 宣布类型: replace-cross 摘要：本研究引入了我们新的计算机听觉任务深度学习训练框架 autrainer 的主要操作原理。autrainer 是一个基于 PyTorch 的工具包，允许多人快速、可重复并易于扩展地在各种不同的计算机听觉任务上进行训练。具体而言，autrainer 提供低代码训练功能，并支持多种神经网络以及预处理流程。在本文中，我们介绍了其内部工作机制和关键功能概览。

发布时间: 4/11/2025

查看原文

马孔尼：面向混合大语言模型时代的前缀缓存

作者: Rui Pan, Zhuang Wang, Zhen Jia, Can Karakus, Luca Zancato, Tri Dao, Yida Wang, Ravi Netravali

arXiv:2411.19379v3 Announce Type: replace-cross 摘要：结合了注意力层的语言建模能力和循环层（例如，状态空间模型）的效率的混合模型，在大规模语言模型服务中实际支持长上下文方面得到了广泛应用。然而，这些模型的独特特性使得使用补充的效率优化（如前缀缓存）变得复杂，这些优化可以跳过请求间的冗余计算。最显著的是，它们对循环层使用就地状态更新，这阻止了在部分序列重叠时回滚缓存条目，反而要求只有完全匹配的缓存命中；结果是每个序列的缓存条目数量庞大，其中大多数缓存条目几乎没有重复利用的机会。我们提出了Marconi，这是第一个支持混合LLM高效前缀缓存的系统。Marconi的关键在于其新颖的准入和驱逐策略，这些策略不仅基于最近性，而且还基于（1）不同命中场景下其重复利用可能性的预测，以及（2）相对于内存足迹的计算节省。在多种工作负载和混合模型中，与最先进的前缀缓存系统相比，Marconi在令牌命中率上提高了最多34.4倍（TTFT降低了71.1%或617毫秒）。

发布时间: 4/11/2025

查看原文

高斯anything：交互式点云流匹配的3D对象生成

作者: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

arXiv:2411.08033v2 宣布类型: replace-cross 摘要：虽然3D内容生成取得了显著进展，但现有方法仍然面临输入格式、潜在空间设计和输出表示方面的挑战。本文介绍了一种新的3D生成框架，以解决这些挑战，提供可扩展的高质量3D生成，并带有交互式的点云结构化潜在空间。我们的框架采用多视角配准RGB-D（深度）-N（法线）渲染作为输入，采用独特的方式设计潜在空间以保留3D形状信息，并结合级联潜在流模型以改进形状-纹理分离。所提出的方法GaussianAnything支持多模态条件3D生成，允许点云、标题和单幅图像输入。值得注意的是，新提出的潜在空间自然地实现了几何-纹理分离，从而使3D感知编辑成为可能。实验结果表明，我们的方法在多个数据集上有效，并在文本和图像条件下的3D生成方面超过了现有原生3D方法。

发布时间: 4/11/2025

查看原文

联邦学习与可解释人工智能之间的交互作用：一个范围审查

作者: Luis M. Lopez-Ramos, Florian Leiser, Aditya Rastogi, Steven Hicks, Inga Str\"umke, Vince I. Madai, Tobias Budig, Ali Sunyaev, Adam Hilbert

arXiv:2411.05874v2 公告类型: replace-cross 摘要：联合实施联邦学习（FL）和可解释的人工智能（XAI）可以允许从分布式数据中训练模型，并在保护核心隐私方面解释其内部工作机制。为了明确它们相互作用带来的益处和挑战，这一范围审查将那些共同讨论FL和XAI的出版物进行了映射，重点是那些报告了FL与模型可解释性或事后解释之间相互作用的出版物。在我们的标准下，共有37项研究满足条件，只有其中一项明确且定量地分析了FL对模型解释的影响，揭示了一个重大的研究缺口。跨FL节点聚合可解释性指标创造了通用的全局见解，但节点特定的模式被稀释。多项研究提出了一种结合了解释方法的FL算法，以保护学习过程不受默认或恶意节点的影响。使用标准化的FL库或遵循报告指南的研究相对较少。需要更多的定量研究和结构化、透明的做法来全面理解它们的相互影响及其发生的具体条件。

发布时间: 4/11/2025

查看原文

超出静态人类提示的可扩展强化后训练：通过不对称自我博弈演变对齐

作者: Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury, Quoc V. Le, Qijun Tan, Yuan Liu

arXiv:2411.00062v3 宣告类型: replace-cross 摘要：当前针对大型语言模型（LLM）的强化学习（RL）框架通常在训练后假设固定提示分布，这虽然不够优化，但也阻碍了可扩展性。先前的工作已经探索了提示进化的方法，但这些方法通常局限于监督微调阶段，并且提示是无信号地均匀采样和进化的。本文呈现了一种范式转变：通过不对称自博弈进化对齐（eva），将训练后视为一个具有后悔信号的无限游戏，适用于两个参与者：（i）一个创作者，他战略性地采样和创建新的信息性提示，以及（ii）一个求解者，他学习生成首选的响应。eva 是第一个允许语言模型在离线和在线 RL 训练后自适应地创建训练提示的方法。该设计简单、易用且极其有效：eva 在挑战性基准测试中设定了新的最先进水平，而无需任何额外的人工提示，例如，它将 Arena-Hard 上的 gemma-2-9b-it 的 DPO 对战胜率从 51.6% 提高到 60.1%，RLOO 的胜率从 52.6% 提高到 62.4%，超越了 claude-3-opus，并接近 gemini-1.5-pro，后者大得多。广泛的实验表明，eva 能够创建有效的 RL 课程，并且在消融实验中表现出 robust。我们认为，自适应地进化提示是设计下一代 RL 训练后方案的关键。

发布时间: 4/11/2025

查看原文

按规则驾驶：一种将交通标志规定集成到矢量高清地图中的基准测试

作者: Xinyuan Chang, Maixuan Xue, Xinran Liu, Zheng Pan, Xing Wei

arXiv:2410.23780v3 宣告类型: replace-cross 摘要：遵守交通标志规定对于人类和自主车辆的导航都至关重要。尽管当前的在线地图解决方案往往更侧重于高清地图的几何和连接层构建，但却忽视了高清地图中交通规则层的构建。为弥补这一不足，我们引入了MapDR，这是一个新颖的数据集，旨在从交通标志中提取驾驶规则，并将其与矢量化、局部感知的高清地图相关联。MapDR 包含超过 10,000 个标注的视频片段，捕捉了交通标志规定与车道之间的复杂关联。基于此基准及新定义的将交通规则整合到在线高清地图中的任务，我们提供了模块化和端到端的解决方案：VLE-MEE 和 RuleVLM，为推进自主驾驶技术提供了一个强大的基线。这一工作填补了交通标志规则集成的关键空白，促进了可靠自主驾驶系统的开发。代码可在 https://github.com/MIV-XJTU/MapDR 查看。

发布时间: 4/11/2025

查看原文

戏剧：Mamba使基于模型的强化学习在样本和参数上更加高效

作者: Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill

arXiv:2410.08893v3 宣布类型：替代交叉摘要：基于模型的强化学习（RL）提供了一种解决大多数无模型RL算法的数据效率低问题的方法。然而，学习一个稳健的世界模型通常需要复杂的深层结构，这在计算上成本高昂且难以训练。在世界模型中，序列模型在准确预测中起着关键作用，各种架构已被探索，每个架构都有其自身的挑战。目前，基于递归神经网络（RNN）的世界模型难以处理梯度消失问题和捕捉长期依赖性。相比之下，变压器（Transformers）由于自注意力机制的二次内存和计算复杂度，放大为 $O(n^2)$，其中 $n$ 是序列长度，存在挑战。为了应对这些挑战，我们提出了一种基于状态空间模型（SSM）的世界模型 Drama，特别利用了 Mamba，该模型实现了 $O(n)$ 的内存和计算复杂性，同时有效地捕捉长期依赖性，并允许使用较长序列进行高效的训练。我们还介绍了一种新的采样方法，以减轻早期训练阶段错误世界模型导致的次优性。结合这些技术，Drama 在 Atari100k 基准测试中实现了与当前最先进的（SOTA）基于模型的 RL 算法相竞争的标准化得分，仅使用一个包含 700 万个参数的世界模型。Drama 可在标准台式机等现成硬件上访问和训练。我们的代码可在 https://github.com/realwenlongwang/Drama.git 获取。

发布时间: 4/11/2025

查看原文

边生成边思考：具有计划去噪的离散扩散

作者: Sulin Liu, Juno Nam, Andrew Campbell, Hannes St\"ark, Yilun Xu, Tommi Jaakkola, Rafael G\'omez-Bombarelli

arXiv:2410.06264v2 生成类型: replace-cross 摘要：离散扩散已经达到了最先进的性能，超过了或接近了在标准基准上表现的自回归模型。在本文中，我们介绍了离散扩散与计划去噪（DDPD），这是一种新颖的框架，将生成过程分离成两个模型：规划器和去噪器。在推理时，规划器通过识别需要去噪的最受污染的位置来选择下一个去噪的位置，包括初始受污染的位置以及需要额外精炼的位置。这种计划和去噪的方法通过在最优顺序中迭代地识别和去噪污染，使得生成过程中的重建更加高效。DDPD 在语言建模基准测试（如 text8、OpenWebText 以及基于 token 的 ImageNet $256 \times 256$ 图像生成）中表现出更优的结果。值得注意的是，在语言建模中，DDPD 显著减少了基于扩散的方法与自回归方法在生成困惑度上的性能差距。代码可在 https://github.com/liusulin/DDPD 获取。

发布时间: 4/11/2025

查看原文

KnobGen：控制基于草图的扩散模型中艺术作品的复杂度

作者: Pouyan Navard, Amin Karimi Monsefi, Mengxi Zhou, Wei-Lun Chao, Alper Yilmaz, Rajiv Ramnath

arXiv:2410.01595v3 宣告类型: 替换交叉摘要：近期在扩散模型方面的进展显著提高了从文本到图像（T2I）生成的效果，但它们往往难以在精细粒度的精度和高层次的控制之间取得平衡。像ControlNet和T2I-Adapter这样的方法在遵循资深艺术家的素描时表现出色，但往往会过于僵化，复制了初学者素描中的无意瑕疵。与此同时，粗粒度的方法，如基于素描的抽象框架，提供了更为易于处理的输入，但缺乏在详细和专业的使用中所需的精确控制。为了应对这些局限性，我们提出了一种名为KnobGen的双路径框架，通过无缝适应不同复杂度的素描和用户技能来普及基于素描的图像生成。KnobGen采用了一个粗粒度控制器（CGC）模块进行高层次语义处理，和一个细粒度控制器（FGC）模块进行详细的细化处理。我们通过旋钮推理机制调整这两个模块的相对强度，以满足用户的具体需求。这些机制确保KnobGen能够灵活地从初学者的素描和资深艺术家的素描中生成图像，同时保持对最终输出的控制，并保留图像的自然外观，这在MultiGen-20M数据集和一个新收集的素描数据集中得到了验证。

发布时间: 4/11/2025

查看原文

基于强化的学习迁移meta学习：低资源常识推理的元迁移学习

作者: Yu Fu, Jie He, Yifan Yang, Qun Liu, Deyi Xiong

arXiv:2409.19075v3 公告类型: replace-cross 摘要：元学习已被广泛用于利用富资源源任务来提高低资源目标任务的性能。不幸的是，现有的大多数元学习方法都同等对待不同的源任务，忽略了源任务与目标任务的相关性在知识迁移中的作用。为了解决这一问题，我们提出了一种基于强化学习的多源元迁移学习框架（Meta-RTL），以提高低资源常识推理的任务表现。在该框架中，我们提出了一种基于强化学习的方法，动态估计源任务权重，衡量相应任务对目标任务在元迁移学习中的贡献。从采样的目标数据上，元模型的通用损失与特定于源任务的临时元模型的特定任务损失之间的差异被作为奖励输入到强化学习模块的策略网络中。策略网络基于LSTM构建，能够捕捉元学习迭代过程中源任务权重估计的长期依赖性。我们使用BERT和ALBERT作为元模型的主干，分别在三个常识推理基准数据集上评估了提出的Meta-RTL。实验结果表明，Meta-RTL不仅显著优于强基线和之前的任务选择策略，在极端低资源设置上也实现了更大的改进。

发布时间: 4/11/2025

查看原文