arXiv:2503.20028v1 类型:新发布
摘要:将大型语言模型(LLMs)与专门工具集成为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致的问题,将多个LLM驱动的代理用于解决复杂任务仍然具有挑战性。我们提出了OmniNova,这是一种将语言模型与搜索引擎、爬虫和代码执行能力等专门工具相结合的模块化多代理自动化框架。OmniNova 引入了三个关键创新点:(1) 一种分层多代理架构,包括协调器、规划员、监督员和专门代理;(2) 一种动态任务路由机制,基于任务复杂度优化代理部署;以及 (3) 一种多层次的语言模型集成系统,将适当的模型分配到不同的认知需求。在涉及研究、数据分析和网络交互领域的50个复杂任务的评估中,OmniNova 的任务完成率(87% vs. 基线62%)和效率(减少41%的 token 使用量)均优于现有框架,并且结果质量(人类评估得分为4.2/5 vs. 基线3.1/5)更高。我们不仅提供了一种多代理系统的理论框架,还提供了一个开源实现,该实现推动了基于LLM的自动化系统的发展。
arXiv:2503.20001v1 宣布类型: 新增
摘要: 我们介绍了PLUME搜索,这是一种通过无监督学习提高组合优化中搜索效率的数据驱动框架。与监督学习或强化学习不同,PLUME搜索直接从问题实例中学习,使用基于排列的损失并通过非自回归方法进行学习。我们在二次指派问题上评估了其性能,这是一个涵盖各种组合优化问题的基本NP难问题。实验结果表明,PLUME搜索能够一致地提高解决方案质量。此外,我们研究了其泛化行为,并展示了学习到的模型在不同密度和规模下的泛化能力。
arXiv:2503.19990v1 宣告类型: 新
摘要: 多步空间推理涉及理解并推理多个连续步骤中的空间关系,这对于解决复杂现实世界应用(如机器人操作、自主导航和自动化装配)至关重要。为了评估当前多模态大规模语言模型(MLLMs)是否已掌握这一基本能力,我们引入了**LEGO-Puzzles**,一个可扩展的基准,旨在通过LEGO任务评估MLLMs的空间理解和序列推理能力。LEGO-Puzzles包括1,100个精心策划的视觉问答(VQA)样本,涉及11个不同的任务,范围从基本的空间理解到复杂的多步推理。基于LEGO-Puzzles,我们对最先进的MLLMs进行了全面评估,并发现它们的空间推理能力存在显著局限:即使最强大的MLLMs也只能回答约一半的测试案例,而人类参与者的表现超过了90%。除了VQA任务,我们还评估了MLLMs根据装配图生成LEGO图像的能力。我们的实验表明,只有Gemini-2.0-Flash和GPT-4o表现出一定的跟随这些指示的能力,而其他MLLMs要么复制输入图像,要么生成完全不相关的输出。总体而言,LEGO-Puzzles揭示了现有MLLMs在空间理解和序列推理方面的重要缺陷,并强调了在多模态空间推理方面进一步发展的必要性。
arXiv:2503.18945v2 公告类型: replace-cross
摘要:几何重建与生成建模的集成仍然是开发能够进行类人空间推理的AI系统的关键挑战。本文提出了一种统一框架Aether,通过联合优化三个核心能力,实现了世界模型中的几何感知推理:(1) 4D动态重建,(2) 动作条件下的视频预测,以及(3) 目标条件下的视觉规划。通过任务交错特征学习,Aether实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型,我们的框架在训练过程中从未见过真实世界的数据的情况下,展示了前所未有的从合成到现实的泛化能力。此外,由于其内在的几何建模能力,我们的方法在动作跟随和重建任务中实现了零样本泛化。值得一提的是,即使没有真实世界的数据,其重建性能也与或甚至优于特定领域的模型。此外,Aether采用相机轨迹作为几何指导的动作空间,从而实现有效的动作条件下的预测和视觉规划。我们希望我们的工作能够激励社区探索在物理合理的世界建模及其应用方面的崭新领域。
arXiv:2503.18854v2 宣告类型: replace-cross
摘要:当前的视觉-语言模型(VLMs)在各类任务中展现出卓越的能力,例如视觉问答。为了提升用户体验,最近的研究致力于VLM个性化,以理解用户提供的概念。然而,这些研究主要集中在单概念个性化上,忽视了多个概念的存在及其相互作用,这限制了其实用性。本文提出了一种新的多概念个性化范式,即MC-LLaVA。具体而言,MC-LLaVA采用了一种多概念指令调整策略,在单一训练步骤中有效地整合了多个概念。为了降低联合训练相关的成本,我们提出了一种个性化文本提示,利用视觉标记信息初始化概念标记。此外,在推理过程中,我们引入了一种个性化视觉提示,聚合位置置信图以增强识别和语义对应能力。为进一步推进多概念个性化研究,我们还贡献了一个高质量的指令调整数据集。我们精心收集了来自电影的多角色和物体的图像,并手动生成了多概念场景的问题-答案样本,这些样本具有出色多样性。全面的定性与定量实验表明,MC-LLaVA可以实现令人印象深刻的多概念个性化响应,为VLMs成为更好适应用户的助手铺平了道路。相关代码和数据集将在https://github.com/arctanxarc/MC-LLaVA上公开可供查阅。
arXiv:2503.18783v2 宣布类型: replace-cross
摘要: 虽然动态卷积(DY-Conv)通过结合注意力机制启用多并行权重的自适应权重选择表现出有希望的性能,但这些权重的频率响应倾向于表现出高度的相似性,导致参数成本高但适应性有限。在这项工作中,我们引入了频率动态卷积(FDConv),这是一种通过在Fourier域中学习固定参数预算来缓解这些限制的新方法。FDConv将这个预算分成具有不重叠Fourier索引的频率基团,使能够在不增加参数成本的情况下构建频率多样化的权重。为了进一步增强适应性,我们提出了核空间调制(KSM)和频率带调制(FBM)。KSM在空间级别动态调整每个滤波器的频率响应,而FBM在频域中将权重分解为不同的频率带,并基于局部内容动态调制它们。广泛的实验在对象检测、分割和分类任务上验证了FDConv的有效性。我们证明,在ResNet-50上应用时,FDConv实现了优越的性能,仅增加了3.6M参数,优于需要大幅提升参数预算的先前方法(例如,CondConv +90M,KW +76.5M)。此外,FDConv可以无缝集成到各种架构中,包括ConvNeXt、Swin-Transformer,提供了一个灵活且高效的解决方案来应对现代视觉任务。相关的代码已公开发布在 https://github.com/Linwei-Chen/FDConv。
arXiv:2503.18681v2 通知类型: 交叉替换
摘要:作为自然语言处理(NLP)领域中的一项重要研究方向,讽刺检测引起了广泛的关注。传统的讽刺检测任务通常集中于单一模态方法(例如文本),但由于讽刺的隐含性和微妙性,这些方法往往未能取得满意的结果。近年来,研究人员将讽刺检测的重点转向了多模态方法。然而,有效地利用多模态信息以准确识别讽刺内容仍然是一项值得进一步探索的挑战。借助多模态大型语言模型(MLLMs)对各种信息源的强大综合处理能力,我们提出了一种创新的多模态Commander-GPT框架。受军事战略的启发,我们首先将讽刺检测任务分解为六个不同的子任务。然后,一个中央指挥官(决策者)指派最适合的大型语言模型来解决每个具体子任务。最终,将每个模型的检测结果汇总以识别讽刺。我们在MMSD和MMSD 2.0上进行了广泛的实验,使用了四种多模态大型语言模型和六种提示策略。我们的实验表明,我们的方法在F1分数上达到了最先进的性能,提升了19.3%,并且无需微调或真实注释的理由。
arXiv:2503.18673v2 宣告类型: replace-cross
摘要:我们引入了Any6D,这是一种无需基于模型的6D物体姿态估计框架,仅需一个单RGB-D锚图像即可估计未知物体在新场景中的6D姿态和大小。与现有方法依赖于纹理化的3D模型或多视图不同,Any6D利用联合物体对齐过程来增强2D-3D对齐和尺度估计,从而提高姿态准确性。我们的方法整合了渲染-比较策略来生成和细化姿态假设,使在遮挡、非重叠视角、多种照明条件和大量跨环境变化场景中表现出更高的鲁棒性。我们使用五个具有挑战性的数据集:REAL275、Toyota-Light、HO3D、YCBINEOAT 和 LM-O 对该方法进行了评估,证明了其在新物体姿态估计方面显著优于现有最先进的方法的有效性。项目页面:https://taeyeop.com/any6d
arXiv:2503.18314v2 公告类型: replace-cross
摘要: 我们提出了LoTUS,这是一种新颖的机器遗忘(Machine Unlearning, MU)方法,它可以消除预训练模型的影响样本,避免重新从头训练。LoTUS 将模型的预测概率平滑到信息论边界,从而减轻其由于数据记忆带来的过度自信。我们在五个多公开数据集上分别在Transformer和ResNet18模型上将LoTUS与八个基线方法进行了评估。除了已有的MU基准之外,我们还在包含1000类的ImageNet1k大规模数据集上评估了遗忘,该数据集的重训练是不切实际的,从而模拟了实际条件。此外,我们引入了新颖的无需重新训练的Jensen-Shannon散度(Retrain-Free Jensen-Shannon Divergence, RF-JSD)指标,以在实际条件下进行评估。实验结果表明,LoTUS在效率和效果上均优于现有方法。代码: https://github.com/cspartalis/LoTUS。
arXiv:2503.18227v2 宣告类型: replace-cross
摘要:段落一切模型(SAM)展示了强大的零样本能力;然而,在应用于医学图像分割时,它的准确性和鲁棒性显著下降。现有方法通过模态融合来解决这一问题,将文本和图像信息结合起来,提供更详细的前提知识。在这项研究中,我们argue(指出)文本的精细程度和领域差距影响了前提知识的准确性。此外,图像中的高层抽象语义和像素级边界细节之间的差距可能会在融合过程中引入噪声。为了解决这个问题,我们提出了前指导SAM(PG-SAM),它采用细粒度模态先验对齐器,利用医学领域的专业知识来更好地进行模态对齐。我们方法的核心在于,利用医学LLM中的细粒度文本高效解决领域差距问题,同时在模态对齐后提高前提知识的质量,从而确保更精确的分割。此外,我们的解码器通过多级特征融合和迭代掩码优化操作增强了模型的表达能力,支持无提示学习。我们还提出了一种集成管线,有效地为SAM提供高质量的语义信息。在Synapse数据集上的广泛实验表明,提出的PG-SAM达到了最先进的性能。我们的匿名代码在https://github.com/logan-0623/PG-SAM上发布。