arXiv:2502.05147v2 宣传类型: replace-cross
摘要: 本文提出了LP-DETR(层级渐进DETR),这是一种通过多尺度关系建模来增强DETR基础目标检测的方法。我们的方法通过关系感知的自我注意机制引入了可学习的对象查询之间的空间关系,在解码器层中自适应地学习平衡不同尺度的关系(局部、中等和全局)。这种渐进式设计使模型能够有效地在整个检测管道中捕捉不断变化的空间依赖关系。在COCO 2017数据集上的大量实验表明,与标准的自我注意模块相比,我们的方法在收敛速度和检测精度上均有所提高。所提出的该方法取得了具有竞争力的结果,使用ResNet-50骨干网络在12个周期和24个周期时分别达到了52.3%的AP和52.5%的AP,并进一步使用Swin-L骨干网络提高到58.0%的AP。此外,我们的分析揭示了一个有趣的现象:模型自然地在早期解码器层中优先学习局部空间关系,而随着层的加深逐渐开始关注更广泛的上下文,这为未来在目标检测方面的研究提供了宝贵的见解。
arXiv:2502.04684v2 宣告类型: replace-cross
摘要:发现基因型-表型关系对于遗传工程至关重要,这将促进作物育种、保护生物学和个人化医疗等领域的发展。当前的研究通常专注于单个物种和小型数据集中,由于表型数据收集的限制,特别是在需要视觉评估或物理测量的性状方面。从基因数据中大规模解码复杂的复合表型,如形态学表型,仍然是一个开放的问题。为了突破依赖于简化假设的传统通用模型,本文介绍了G2PDiffusion,这是首个用于多物种基因型到表型生成的扩散模型。具体来说,我们使用图像来表示不同物种的形态学表型,并将表型预测重新定义为条件图像生成。为此,本文引入了环境增强的DNA序列条件器,并使用一种新型对齐方法训练稳定扩散模型以提高基因型到表型的一致性。广泛的实验表明,我们的方法提高了跨物种的表型预测准确性,捕捉到了对可观察性状有贡献的细微基因变异。
arXiv:2502.04674v2 宣告类型: 替换-交叉
摘要:有效的语言选择对于吸引潜在客户并在广告中取得成功至关重要。本研究旨在探索影响人类偏好的广告文本的语彙特征。尽管吸引人广告文本的创作是研究的活跃领域,但由于几个障碍,对影响吸引力的具体语彙特征的理解进展受到阻碍。首先,人类的偏好是复杂的,并受到多个因素的影响,包括内容,如品牌名称,以及语言风格,这使得分析变得具有挑战性。其次,缺乏包含人类偏好的公开广告文本数据集,例如广告性能指标和人类反馈,这些指标反映了人们的兴趣。为了解决这些问题,我们介绍了AdParaphrase数据集,该数据集包含具有半同义性的广告文本对的人类偏好,但它们在用词和风格上有所不同。该数据集允许专注于语彙特征差异的偏好分析。我们的分析表明,人类评审员喜欢的广告文本具有更高的流畅性、更长的长度、更多的名词以及括号符号的使用。此外,我们展示了考虑这些发现的广告文本生成模型可以显著提高给定文本的吸引力。该数据集可在 https://github.com/CyberAgentAILab/AdParaphrase 公开获取。
arXiv:2502.04411v2 更新类型: replace-cross
摘要: 模型合并将不同任务微调的大语言模型(LLMs)合并为一个更强的模型。然而,模型之间的参数冲突导致在平均时性能下降。模型路由通过在推理时选择单个模型来解决这一问题,但它会带来过高的存储和计算成本,并且无法利用不同模型的共通知识。在这项工作中,我们观察到不同层的参数冲突程度不同。基于这一洞察,我们将参数冲突较少的层进行平均,并对有显著冲突的层使用一种新颖的任务级专家路由。为进一步降低存储成本,受任务算术稀疏性的启发,我们将多个微调专家拆解为一个密集专家和几个稀疏专家。考虑到离分布样本,我们根据输入数据的任务不确定性选择并合并适当的专家。我们在LLaMA和Qwen上进行了广泛的实验,参数规模各异,并在现实世界的推理任务上进行了评估。结果显示,与现有方法相比,我们的方法在系统成本较低的情况下,仍能实现显著的性能提升。
arXiv:2502.04315v3 更新类型: replace-cross
摘要:最近在大型语言模型(LLMs)领域的进展展示了其在多种任务上的杰出性能。然而,这些模型通常以固定权重的形式部署,这限制了它们在推断过程中对现实世界数据固有的变化性进行动态适应的能力。本文引入了ChameleonLLM,这是一种新颖的框架,通过利用批处理感知聚类和实时生成低秩更新来实现LLM的推理时适应性。与传统的低秩适应(LoRA)方法或依赖于固定预学习均匀参数(可变掩码)的方法不同,我们的方法根据聚类批量的汇总统计信息,动态生成适应性修改以调整解码器权重。通过智能地分组相似的输入,并通过超网络计算上下文感知低秩更新,ChameleonLLM实现了显著的性能提升,超越了传统的LoRA方法,同时消除了维护多个专家模型的开销。我们的实验突显了该方法作为一种灵活且高度适应的解决方案用于语言模型推理的潜力。ChameleonLLM已开源以确保我们的实验的可复制性:https://anonymous.4open.science/r/ChamaleonLLM/
arXiv:2502.03814v2 Announce Type: replace-cross
摘要:大型语言模型(LLMs)的快速发展为多机器人系统(MRS)带来了新的可能性,使其能够在通信、任务规划和人机交互中增强功能。与传统的单机器人系统和多代理系统不同,MRS 面临着独特的挑战,包括协调、可扩展性和现实世界的适应性。本文提供了LLM集成到MRS中的首次全面探索。本文系统地将它们的应用分类为高层任务分配、中层运动规划、低层动作生成以及人类干预。我们强调了在各个领域的关键应用,如家庭机器人、建筑、队形控制、目标追踪和机器人游戏,展示了LLMs在MRS中的多样性和变革潜力。此外,我们还考察了限制LLM在MRS中适应性的挑战,包括数学推理限制、幻觉、延迟问题以及需要更可靠的基准测试系统。最后,我们概述了未来研究的机会,强调改进微调、推理技术和任务特定模型的重要性。本文旨在指导研究人员在LLMs支持下实现MRS的智能和实际部署。鉴于该领域研究的快速发展,我们将不断更新开源GitHub仓库中的论文。
arXiv:2502.03729v2 宣告类型: replace-cross
摘要:端到端的模仿学习为机器人策略的训练提供了一种前景广阔的方法。然而,将其应用于新的环境仍然是一个重大的挑战。尽管大规模的机器人演示数据集展示了诱导泛化的潜力,但它们在扩展时资源密集。相比之下,人类视频数据丰富多样,提供了一个有吸引力的替代方案。然而,这些人类视频数据缺乏动作标签,使其在模仿学习中的使用变得复杂。现有方法试图提取基于地面的动作表示(例如,手部姿势),但生成的策略在人类和机器人动作的体现差距上难以跨越。我们提出了一种替代方法:利用人类视频中的基于语言的推理来引导机器人动作,从而训练可泛化的机器人策略。基于近期基于推理的策略架构的进展,我们引入了基于推理的动作免费数据(RAD)。RAD 从带有推理和动作标签的机器人演示数据(尽管是动作免费的)和仅带有推理标签的动作免费人类视频数据中学习。机器人数据教会模型将推理映射到低级动作,而动作免费数据则增强了推理能力。此外,我们还将发布一个包含3,377个人手演示的新数据集,这些演示与Bridge V2基准兼容,并旨在促进基于推理的机器人学习的未来研究。我们的实验表明,RAD 使跨越体现差距的有效转移成为可能,使机器人能够执行仅在动作免费数据中见过的任务。此外,扩展动作免费推理数据显著提高了策略性能,并增强了对新任务的泛化能力。这些结果突显了通过动作免费数据集进行基于推理的学习在推进可泛化的机器人控制方面的潜力。项目页面: https://rad-generalization.github.io
arXiv:2502.03622v2 通知类型: 替换-交叉
摘要:尽管在数字时代钓鱼攻击仍然是一个巨大的威胁,但组织缺乏有效的对抗手段,而无需泄露敏感信息。钓鱼碗活动是针对这些攻击的网络安全努力中的重要组成部分。然而,传统的钓鱼碗需要手动脱敏,通常只能内部使用。为了克服这些限制,我们引入了AdaPhish,这是一个利用大型语言模型(LLMs)和向量数据库自动脱敏和分析钓鱼邮件的AI驱动钓鱼碗平台。AdaPhish 能够实时检测并适应新型钓鱼手段,同时实现对钓鱼趋势的长期跟踪。通过自动化报告、适应性分析和实时警报,AdaPhish 提供了一个可扩展且协作的钓鱼检测和网络安全教育解决方案。
arXiv:2502.02917v2 通知类型: 交叉替换
摘要:符号回归(SR)在从观测数据中揭示潜在的数学和物理关系方面具有巨大的潜力。然而,可能表达式的庞大组合空间对在线搜索方法和预训练的变压器模型构成了重大挑战。此外,当前最先进的方法通常不考虑领域专家的先验知识,并且不支持在方程发现过程中与模型进行迭代交互。为了解决这些挑战,我们提出了一种名为符号Q网络(Sym-Q)的高级交互框架,用于大规模符号回归。与之前的基于变压器的大型符号回归方法不同,Sym-Q 利用强化学习而无需依赖于变压器解码器。这种形式允许智能体通过离线强化学习使用任何类型的树编码器进行学习,从而提高了训练和推断的效率。此外,我们提出了一种协同设计机制,其中基于强化学习的 Sym-Q 在方程发现过程的任何阶段都促进了与领域专家的有效交互。用户可以动态修改生成表达式的节点,与智能体协作,将数学表达式调整为最好地适应问题,并与假设的物理定律保持一致,尤其是当有部分预期行为的先验知识时。我们的实验表明,预训练的 Sym-Q 在具有挑战性的 SSDNC 基准上超过了现有的 SR 算法。此外,我们在实际案例上进行的实验表明,交互式协同设计机制可以进一步提升其性能,Sym-Q 的性能提升程度超过了其他最先进的模型。我们的可复现代码可在 https://github.com/EPFL-IMOS/Sym-Q 获取。
arXiv:2502.02027v3 通知类型: 替换-交叉
摘要:本研究探讨了将基于人类视觉线索的去雾技术整合到物体检测中所面临的挑战,考虑到人类感知的选择性。尽管人类视觉能够动态适应环境条件,但计算去雾并不总是均匀地提高检测效果。我们提出了一种多阶段框架,其中轻量级检测器识别感兴趣区域(RoIs),随后通过空间注意力机制进行去雾增强,最终由重型模型进行最终检测。尽管在有雾条件下效果很好,但这种方法却意外地对清晰图像的性能有所下降。我们分析了这一现象,调查了可能的原因,并提出了设计混合管道的见解,以平衡增强和检测。我们的发现突显了选择性预处理的必要性,并质疑级联变换的普遍益处假设。