arXiv 论文列表

长时 horizon 交互式大语言模型代理的强化学习方法

作者: Kevin Chen, Marco Cusumano-Towner, Brody Huval, Aleksei Petrenko, Jackson Hamburger, Vladlen Koltun, Philipp Kr\"ahenb\"uhl

arXiv:2502.01600v2 宣读类型: 强交叉领域摘要：交互式数字代理（IDAs）利用状态型数字环境的API来响应用户请求执行任务。尽管由指令调校的大语言模型（LLMs）驱动的IDAs可以在多步骤交换中对界面调用的反馈作出响应，但它们并未在各自的数字环境中进行训练。此前的方法在如AppWorld等复杂的基准测试中仅能完成不到一半的任务。我们提出了一种强化学习（RL）方法，直接在目标环境中训练IDAs。我们将这一训练形式化为部分可观测马尔可夫决策过程，并推导出一种名为LOOP的数据和内存高效的阻塞性策略优化变体。LOOP不使用价值网络，并且在内存中保持底层LLM的一个副本，使其实施简便，并且与单一LLM微调一样节省内存。在AppWorld环境中使用LOOP训练的一个320亿参数的代理，在多项任务性能上超过了OpenAI的更大规模o1代理，高出9个百分点（相对增长15%）。据我们所知，这是我们首次报道将RL应用于通过直接API调用与状态型多领域多应用环境交互的IDAs的研究。我们的分析揭示了在这一领域RL的有效性，表明代理学会了查阅API文档、避免不必要的假设、最小化编造行为，并从挫折中恢复。

发布时间: 2/4/2025

查看原文

视觉理论思维使书写系统的创制成为可能

作者: Benjamin A. Spiegel, Lucas Gelfond, George Konidaris

arXiv:2502.01568v2 交叉公告类型摘要: 抽象符号书写系统是现代社会中无处不在的符号代码，但在动物世界中却不存在。人类学证据表明，某些书写系统的最早形式最初是由象征性的象形文字组成的，这些象形文字通过视觉相似性来表示其指代对象。虽然先前的研究从计算的角度探讨了象形文字书写系统的出现和进化，但大多数研究使用的是非自然的方法，这使得很难将这些研究与人类和动物的认知进行清晰的类比。我们开发了一种用于涌现性通信的多智能体强化学习实验平台，称为表示游戏，并提出了一个演绎性通信的模型，使智能体能够利用视觉心智理论通过象形文字传达动作。我们的模型位于更广泛的动物通信形式主义之内，揭示了导致早期书写系统发展的认知和文化过程。

发布时间: 2/4/2025

查看原文

SPFFNet: 条状感知和特征融合空间金字塔池化在织物缺陷检测中的应用

作者: Peizhe Zhao

arXiv:2502.01445v2 宣传类型:横跨摘要：在纺织品中检测缺陷对于质量控制至关重要，但现有方法往往难以处理复杂的背景和形状特定的缺陷。在本文中，我们提出了一种基于YOLOv11的改进的纺织品缺陷检测模型。为了增强条状缺陷的检测，我们引入了一种条状感知模块（SPM），通过多尺度卷积提高特征捕捉能力。我们还通过结合挤压和激励机制增强了空间金字塔池化快速算法（SPPF），从而形成SE-SPPF模块，更好地整合空间和通道信息，以实现更有效的缺陷特征提取。此外，我们提出了一个新颖的聚焦增强完整交并比（FECIoU）度量标准，通过适应性加权来解决尺度差异和类别不平衡问题，通过聚焦损失调整难以检测实例的权重。实验结果表明，我们的模型在天池数据集上的平均精度均值（mAP）提高了0.8-8.1%，在我们自定义数据集上的mAP提高了1.6-13.2%，优于其他最先进的方法。

发布时间: 2/4/2025

查看原文

自适应奇异值分解：面向大规模语言模型的自适应奇异值分解方法

作者: Zhiteng Li, Mingyuan Xia, Jingyuan Zhang, Zheng Hui, Linghe Kong, Yulun Zhang, Xiaokang Yang

arXiv:2502.01403v2 宣告类型: cross 摘要: 大型语言模型（LLMs）在自然语言处理（NLP）任务中取得了显著的成功，但它们巨大的内存需求对在资源受限设备上的部署构成了重大挑战。奇异值分解（SVD）作为一种为LLMs压缩的有前景的技术，能够显著减少内存开销。然而，现有的基于SVD的方法经常难以有效缓解由SVD截断引入的错误，导致与原始模型相比的性能差距显著。此外，对所有变换器层应用统一的压缩比忽视了不同层的重要性差异。为了应对这些挑战，我们提出了一种自适应SVD（AdaSVD）的大型语言模型压缩方法。具体来说，AdaSVD引入了adaComp，通过交替更新奇异矩阵U和V^T来自适应补偿SVD截断错误。此外，AdaSVD引入了adaCR，根据每层的重要性差异自适应地分配特定的压缩比。在多个LLM家族和评估指标上的广泛实验表明，AdaSVD始终优于最先进的（SOTA）基于SVD的方法，实现了显著减少内存需求下的优越性能。代码和模型将在 https://github.com/ZHITENGLI/AdaSVD 上提供。

发布时间: 2/4/2025

查看原文

压缩图像生成与去噪扩散码本模型

作者: Guy Ohayon, Hila Manor, Tomer Michaeli, Michael Elad

arXiv:2502.01189v2 降噪扩散模型类型：交叉摘要：我们提出了一种基于去噪扩散模型（DDMs）的新颖生成方法，该方法能够生成高质量的图像样本，同时还提供了其无损压缩的位流表示。通过在逆向扩散过程中用预定义固定iid高斯向量的噪声样本集替换标准的高斯噪声采样来实现这一目标。令人惊讶的是，我们发现称为去噪扩散代码本模型（DDCM）的方法，在极小的代码本中仍然能够保留标准DDM的质量和多样性。我们利用DDCM，并从代码本中选择与给定图像最佳匹配的噪声，将我们的生成模型转换为一种高度有效的失真图像编解码器，实现了目前最先进的人感知图像压缩结果。更广泛地说，通过设置其他噪声选择规则，我们将我们的压缩方法扩展到了任何条件图像生成任务（例如，图像恢复），其中生成的图像及其压缩的位流表示是同时产生的。我们的研究还包括对所提出的压缩条件生成方案的数学解释，建立了与考虑任务中后验采样器的分数逼近之间的联系。

发布时间: 2/4/2025

查看原文

MergeME：同构与异构MoE的模型合并技术

作者: Yuhang Zhou, Giannis Karamanolakis, Victor Soto, Anna Rumshisky, Mayank Kulkarni, Furong Huang, Wei Ai, Jianhua Lu

arXiv:2502.00997v2 声明类型: cross 摘要：近年来，专门针对数学推理和编程领域的大型语言模型（LLMs）的成功促使人们越来越关注如何将这些专家级LLMs融合成一个统一的混合专家（MoE）模型的方法，目的在于提高各个领域的性能，同时在通用任务上保持有效性。然而，有效地融合专家模型仍然是一个开放的研究挑战，尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE融合方法只能处理同构模型架构，并依赖简单的加权平均来合并专家层，这种方法不能解决参数干扰问题，还需要对融合后的MoE进行大量微调以恢复性能。为了克服这些局限性，本文引入了新的MoE融合技术，包括减轻参数干扰的策略、减少对MoE微调需求的路由启发式方法，以及一种用于合并具有不同架构专家的新方法。在多个领域的广泛实验表明，我们提出的方法具有有效性，减少了微调成本，提高了性能，优于最先进的方法，并扩大了MoE融合的应用范围。

发布时间: 2/4/2025

查看原文

拥抱辩证的共通意义：内容分析中的LLM人格模拟与不同视角协调

作者: Taewoo Kang, Kjerstin Thorson, Tai-Quan Peng, Dan Hiaeshutter-Rice, Sanguk Lee, Stuart Soroka

arXiv:2502.00903v2 交叉类型公告摘要：本研究试图将内容分析方法从基于共识的做法提升为基于协调的做法，从而接纳多样的编码输出并探讨不同视角之间的动态关系。作为这种方法的一种探索性研究，我们评估了六种GPT-4o配置，用于分析2020年美国总统竞选期间福克斯新闻和MSNBC关于拜登和特朗普的转录内容中的情感，考察了这些模型的模式。通过评估每种模型与意识形态立场的一致性，我们探索了党派选择性处理如何在LLM辅助内容分析（LACA）中被识别。研究发现，当处理政治上一致的内容时，党派人格LLM展现出更强的意识形态偏见。此外，相同党派人格之间的编码者可靠性高于跨党派配对。这种方法提高了对LLM输出的精细化理解，并推动了基于人工智能的社会科学研究的完整性，使其能够模拟现实世界的影响。

发布时间: 2/4/2025

查看原文

视频潜在流匹配：视频插值和外推的最佳多项式投影

作者: Yang Cao, Zhao Song, Chiwun Yang

arXiv:2502.00500v2 宣告类型: cross 摘要: 本文考虑了一种高效的视频建模过程，称为视频潜空间流匹配(VLFM)。与先前的工作不同，先前的工作通过随机采样潜空间中的片段来生成视频，我们的方法依赖于当前强大的预训练图像生成模型，建模一种由特定的字幕引导的潜空间片段流，这种流可以解码为时变的视频帧。我们首先假设一个视频中的多张图像在某些潜空间中相对于时间是可微的。基于这一假设，我们引入HiPPO框架来近似多项式的最佳投影以生成概率路径。我们的方法获得了有界通用逼近误差的理论优势以及时间尺度鲁棒性。此外，VLFM处理了以任意帧率生成视频的插值和外推能力。我们在几个文本到视频数据集上进行了实验，以展示我们方法的有效性。

发布时间: 2/4/2025

查看原文

数据高估攻击与诚实的数据估值

作者: Shuyuan Zheng, Sudong Cai, Chuan Xiao, Yang Cao, Jianbin Qin, Masatoshi Yoshikawa, Makoto Onizuka

arXiv:2502.00494v2 宣告类型: cross 摘要: 在协作机器学习中，数据估值，即评估每个客户端的数据对机器学习模型的贡献，已成为激励和选择积极数据贡献的关键任务。然而，现有研究往往假设客户端会诚实地进行数据估值，忽视了客户端夸大其贡献的实际动机。为了解决这一问题，本文首次引入了数据过估值攻击，使一些策略性的客户端能够使其数据显著过估值。此外，我们提出了一种诚实的数据估值度量标准，称为Truth-Shapley。Truth-Shapley是唯一一种同时保证数据估值中某些有希望的公理，并确保客户端的最佳策略是进行诚实的数据估值的度量标准。我们的实验证明了现有数据估值度量标准对数据过估值攻击的脆弱性，并验证了Truth-Shapley的鲁棒性和有效性。

发布时间: 2/4/2025

查看原文

AudioGenX：文本到音频生成模型的可解释性

作者: Hyunju Kang, Geonhee Han, Yoonjae Jeong, Hogun Park

arXiv:2502.00459v2 Announce Type: cross 摘要：文本到音频生成模型（TAG）在根据文本描述生成音频方面取得了显著进展。然而，一个关键挑战在于缺乏关于每个文本输入如何影响生成音频的透明性。为解决这一问题，我们引入了AudioGenX，这是一种可解释的人工智能（XAI）方法，通过突出输入令牌的重要性为文本到音频生成模型提供解释。AudioGenX 通过利用事实和反事实目标函数来优化解释器，以在音频令牌级别提供忠实地解释。该方法提供了文本输入与音频输出之间关系的详细和全面理解，从而增强TAG模型的可解释性和可信度。广泛的实验表明，与现有方法相比，AudioGenX 在使用为音频生成任务专门设计的新评估指标进行基准测试时，在产生忠实解释方面具有有效性。

发布时间: 2/4/2025

查看原文