arXiv:2502.01600v2 交互数字代理类型:替换交叉
摘要:交互数字代理(IDAs)利用有状态数字环境的API来响应用户请求执行任务。尽管由指令调整的大语言模型(LLMs)驱动的IDAs可以在多步交互中对界面调用的反馈作出反应,但它们并没有在其相应的数字环境中进行训练。先前的方法在AppWorld等复杂基准测试中只能完成不到一半的任务。我们提出了一种强化学习(RL)方法,直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程,并推导出一种数据和内存高效的优化策略 proximal policy optimization 的变体 LOOP。LOOP 不使用价值网络,并且在内存中只维护一个底层 LLM 的副本,使其实现简单,并且内存效率与对单个 LLM 进行微调相当。借助 LOOP 在 AppWorld 环境中训练的 320 亿参数代理,超越了 OpenAI 更大的 o1 代理 9 个百分点(相对 15%)。据我们所知,这是首次将 RL 应用于通过直接 API 调用与有状态、多领域、多应用环境交互的 IDAs 的应用。我们的分析揭示了在这种领域中 RL 的有效性,展示了该代理学会查阅 API 文档、避免不必要的假设、减少虚构推理、并从挫折中恢复。
arXiv:2502.01568v2 通告类型: replace-cross
摘要:抽象符号书写系统是现代社会中无处不在的象徽符号编码,但在动物王国中却极为罕见。人类学证据表明,某些书写系统最早的形态是由具象象形字组成的,这些象形字通过视觉相似性来表示其对应的实体。虽然以前的研究从计算的角度考察了象形文字书写系统的发展和演进,但大多数研究使用的是非自然的方法,使得难以明确将其与人类和动物的认知相对照。我们开发了一种名为象义游戏的多智能体强化学习实验平台,以促进自发沟通,并提出了一种推论通信的模型,使智能体能够利用视觉理论心智来使用象形字传达动作。该模型置于此更广泛的行为动物沟通形式之内,为我们提供了关于早期书写系统的发展过程中所涉及的认知和社会过程的洞见。
arXiv:2502.01445v2 通知类型: 替换-交叉
摘要:纺织品缺陷检测是质量控制的关键,但现有方法往往难以应对复杂背景和形状特异性缺陷。本文基于YOLOv11提出了一种改进的纺织品缺陷检测模型。为了增强对条状缺陷的检测,我们引入了一种条状感知模块(SPM),通过多尺度卷积提高特征捕捉能力。我们进一步通过集成挤压-激励机制增强了空间金字塔池化快速(SPPF)模块,最终形成SE-SPPF模块,更好地整合了空间和通道信息,以实现更有效的缺陷特征提取。此外,我们提出了一种新颖的聚焦增强完整交并比(FECIoU)度量,具有自适应权重,通过调整聚焦损失中的权重来解决检测实例的尺度差异和类别不平衡问题。实验结果表明,我们的模型在天池数据集上的平均平均精度(mAP)提高了0.8-8.1%,在我们自定义数据集上的改进幅度为1.6-13.2%,超过了其他最先进的方法。
arXiv:2502.01403v2 Announce Type: replace-cross
摘要:大规模语言模型(LLMs)已经在自然语言处理(NLP)任务上取得了显著的成功,但其庞大的内存需求对在资源受限设备上的部署提出了重大挑战。奇异值分解(SVD)已经成为LLMs压缩的一种有前景的技术,提供了显著的内存开销减少。然而,现有的基于SVD的方法往往难以有效缓解SVD截断引入的错误,导致与原始模型相比存在明显的性能差距。此外,对所有Transformer层应用统一的压缩比未能考虑到不同层的重要性差异。为了应对这些挑战,我们提出了AdaSVD,这是一种自适应的基于SVD的LLM压缩方法。具体来说,AdaSVD引入了adaComp,通过交替更新奇异矩阵U和V^T,自适应地补偿SVD截断误差。此外,AdaSVD引入了adaCR,根据每层的重要性自适应地为每层分配压缩比。广泛实验跨越多个LLM家族和评估指标显示,AdaSVD一致地超越了最先进的(SOTA)基于SVD的方法,实现了在显著减少内存需求的同时具有更优的性能。代码和模型将在https://github.com/ZHITENGLI/AdaSVD上提供。
arXiv:2502.01189v2 宣布类型: replace-cross
摘要:我们提出了一种基于去噪扩散模型(Denoising Diffusion Models, DDMs)的新颖生成方法,该方法可以生成高质量的图像样本以及其无损压缩位流表示。这是通过将反向扩散中的标准高斯噪声采样替换为从预定义的固定iid高斯向量代码本中选择噪声样本来实现的。令人惊讶的是,我们发现我们的方法——称为去噪扩散代码本模型(Denoising Diffusion Codebook Model, DDCM)——即使对于极小的代码本也能保留与标准DDM相同的样本质量和多样性。利用DDCM,我们选择了最好匹配给定图像的噪声样本,将我们的生成模型转换为一种非常有效的有损图像编解码器,实现了最先进的感知图像压缩效果。更一般地,通过设置其他噪声选择规则,我们将我们的压缩方法扩展到任何条件图像生成任务(例如图像恢复),其中生成的图像与其紧凑的位流表示是联合生成的。我们的工作附带了对所提出压缩条件生成方案的数学解释,建立了与所考虑任务中的基于评分的后验采样器近似方法之间的联系。
arXiv:2502.00997v2 宣传类型: 替换-交叉
摘要:近年来,专门的大规模语言模型(LLMs)在数学推理和编程等领域取得的成功,引发了对将这些专家LLM合并为统一的专家混合模型(MoE)的方法的兴趣,目标是在保持对通用任务有效性的同时,增强每个领域的性能。然而,有效地合并专家模型仍然是一个开放的挑战,尤其是对于具有高度不同权重参数或不同架构的模型。最先进的MoE合并方法仅适用于 homogeneous 模型架构,并依赖于简单的未加权平均来合并专家层,这未能解决参数干扰问题,并需要对合并的MoE进行大量的微调以恢复性能。为了解决这些限制,本文介绍了一些新的MoE合并技术,包括缓解参数干扰的策略、减少对MoE微调需求的路由启发式方法,以及一种合并具有不同架构的专家的新方法。在多个领域的广泛实验表明,我们提出的方法的有效性,减少了微调成本,改进了相对于最先进的方法的性能,并扩大了MoE合并的应用范围。
arXiv:2502.00903v2 宣布类型: replace-cross
摘要:本研究试图从共识导向的内容分析方法进步到协调导向的方法,从而接纳多样的编码输出并探索不同视角之间的动态关系。作为该方法的探索性研究,我们评估了六种GPT-4o配置,以分析Fox News和MSNBC有关拜登和特朗普在2020年美国总统竞选期间的转录内容中的情绪,考察这些模型之间的模式。通过评估每个模型与意识形态视角的一致性,我们探索了在辅助语言模型的内容分析(LACA)中如何识别党派选择性处理。研究发现,当处理政见相合的内容时,党派化的人格辅助语言模型显示出更强的意识形态偏见。此外,同一党派的人格间的编码可靠性高于跨党派的人格对。这种方法增强了对辅助语言模型输出的深刻理解,并推动了人工智能驱动的社会科学研究的完整性,使其能够模拟现实世界的含义。
arXiv:2502.00500v2 宣告类型: replace-cross
摘要:本文考虑了一个高效的视频建模过程,称为视频潜在流匹配(VLFM)。与以往工作随机采样视频生成中的潜在补丁不同,我们的方法依赖于当前强大的预训练图像生成模型,构建了一种特定于特定说明的潜在补丁流,这些补丁可以解码为时间相关的视频帧。我们首先推测视频中的多张图像在某个潜在空间中对时间是可微的。基于这一假设,我们引入了HiPPO框架来近似多项式的最佳投影,以生成概率路径。我们的方法获得了有界的普遍逼近误差理论优势和时间尺度鲁棒性。此外,VLFM能够处理任意帧率的视频生成的插值和外推能力。我们在几个文本到视频的数据集上进行了实验,以展示我们方法的有效性。
arXiv:2502.00494v2 公告类型: replace-cross
摘要:在协作机器学习中,数据估值,即评估每个客户端的数据对机器学习模型的贡献,已成为激励和选择积极数据贡献的关键任务。然而,现有研究往往假定客户端会诚实地进行数据估值,忽视了客户端夸大其贡献的实际动机。为了应对这一威胁,本文提出了第一个数据过估攻击,使得战略性客户端的数据能被显著高估。此外,我们提出了一种真诚的数据估值指标,名为 Truth-Shapley。Truth-Shapley 是唯一一种在保证数据估值某些有前景的公理的同时,确保客户端的最佳策略是进行真诚的数据估值的指标。我们的实验展示了现有数据估值指标对数据过估攻击的脆弱性,并验证了 Truth-Shapley 的稳健性和有效性。
arXiv:2502.00459v2 Announce Type: replace-cross
摘要:文本到音频生成模型(TAG)在根据文本描述生成音频方面取得了显著进展。然而,一个关键挑战在于缺乏关于每个文本输入如何影响生成音频的透明度。为了应对这一问题,我们提出了AudioGenX,这是一种可解释人工智能(XAI)方法,通过突出显示输入词的重要性来为文本到音频生成模型提供解释。AudioGenX 通过结合事实和反事实目标函数来优化解释器,在音频 token 层面上提供忠实的解释。该方法提供了文本输入和音频输出之间关系的详细和全面理解,从而增强 TAG 模型的可解释性和可信度。广泛的实验验证了 AudioGenX 在生成忠实解释方面的有效性,并使用专门为音频生成任务设计的新颖评估指标与现有方法进行了基准测试。