arXiv:2503.20484v1 宣告类型: cross
摘要: 差分模型已经在文本指导的图像转换中生成多样且高质量的图像方面表现出色。然而,在文本提示的表述和参考图像内容的保留方面仍存在改进空间。首先,目标文本提示的变化会显著影响生成图像的质量,用户往往难以构思一个能够完全捕捉输入图像内容的最佳提示。其次,尽管现有的模型能够对参考图像的特定区域引入所需的修改,但它们经常会在不应发生变化的区域引起意想不到的改变。为了解决这些挑战,我们提出了一个基于差分的零样本方法 pix2pix-zeroCon,该方法通过利用块级对比损失消除了额外训练的需求。具体而言,我们根据参考图像和目标提示自动确定文本嵌入空间中的编辑方向。此外,为确保编辑图像中精确的内容和结构保留,我们在预训练的差分模型中引入了跨注意力引导损失和生成图像嵌入与原始图像嵌入之间的块级对比损失。值得注意的是,我们的方法不需要额外的训练,并直接在预训练的文本到图像差分模型上运行。广泛的实验表明,我们的方法在图像到图像的转换中超过了现有模型,实现了更高的保真度和可控性。
arXiv:2503.20479v1 类型: cross
摘要:当前,纳米光子学领域的创新依赖于人类专家,他们将光子学和编码的专业知识与模拟和优化算法相结合,导致设计周期耗时长、计算需求高且经常不夠优化。我们介绍了MetaChat,这是一种多智能体设计框架,可以将语义描述的光子学设计目标自动地转换为高性能、自由形态的设备布局,几乎实时地实现。通过我们的智能体迭代独白(AIM)范式,智能体可以与代码工具、其他专业化智能体和人类设计师协调一致。通过特征层面线性调制条件下的Maxwell近似解算器,设计加速得以实现,这些解算器支持元表面结构的通用评估。我们使用自由形态介电元表面作为模型系统,并通过MetaChat展示了相较于传统方法快若干数量级的多目标、多波长元表面设计。这些概念为利用专精的设计智能体、近似解算器和人类互动推动物理多场创新与发现提供了科学计算蓝图。
arXiv:2503.20472v1 类型: cross
摘要:多模态大型语言模型(MLLMs)在视频理解方面展示了非凡的能力。然而,理解长视频仍然是一个挑战,因为模型只能在一个推理中处理有限数量的帧,可能会遗漏关键的视觉信息。为了解决这个问题,我们提出通过视觉上下文采样生成多个预测,然后通过评分机制选择最终的预测。具体来说,我们设计了一种箱内采样策略,使MLLMs能够基于关键帧的各种组合生成多样化的答案,从而丰富视觉上下文。为了从采样的答案中确定最终的预测,我们采用了一种自奖励方法,通过线性结合三个评分来实现:(1) 频率评分,表明每个选项的出现频率;(2) 边际置信评分,反映MLLM预测的跨内样本一致性;(3) 类型推理评分,针对不同类型的问题,包括全局问题的线索指导回答和局部问题的时空自我聚焦。频率评分通过多数正确性保证了鲁棒性,边际置信评分反映了预测的确定性,而类型推理评分则使用定制策略应对关键视觉信息稀疏的情况。实验结果显示,这种方法在七个数据集上对长视频问题的正确答案覆盖了高比例,我们的方法在三个MLLMs中提高了性能。
arXiv:2503.20446v1 种类:交叉学科
摘要:准确分割胶质瘤脑肿瘤对于诊断和治疗计划至关重要。深度学习技术提供了有希望的解决方案,但最优模型架构仍在研究中。我们使用了BraTS 2021数据集,选择了对比增强的T1序列(T1CE)、T2序列和流体衰减反转恢复(FLAIR)序列来开发模型。所提出的注意力Xception UNet(AXUNet)架构结合了Xception骨干与点积自我注意模块,灵感源自当前最先进的(SOTA)大型语言模型,如Google Bard和OpenAI ChatGPT,在UNet形状的模型中。我们将AXUNet与SOTA模型进行了比较。在测试集上的比较评估显示,AXUNet相比基线模型取得了更好的结果。Inception-UNet和Xception-UNet分别获得了平均Dice分数90.88和93.24。注意力ResUNet(AResUNet)获得了平均Dice分数92.80,所有模型中增强肿瘤(ET)的最高得分为84.92。注意力门控UNet(AGUNet)获得了平均Dice分数90.38。AXUNet在所有模型中表现最佳,获得了平均Dice分数93.73。它在肿瘤整体(WT)和肿瘤核心(TC)区域展示了更高的Dice分数,分别为92.59、86.81和84.89。AXUNet结合了Xception骨干和点积自我注意机制,展示了在捕捉空间和上下文信息方面增强的性能。研究结果突显了AXUNet在促进精确肿瘤界定方面潜在的应用价值。
arXiv:2503.20428v1 声明类型:交叉
摘要:本研究探讨了广泛使用的面部表情识别(FER)数据集在训练深度学习模型时的关键特性和适用性。在情感计算领域,面部表情识别对于解读人类情感至关重要,但FER系统的性能高度依赖于底层数据集的质量和多样性。为了解决这一问题,我们汇总并分析了24个FER数据集,包括针对特定年龄段的人群,如儿童、成人和老年人的数据集,并通过全面的标准化流程进行了处理。此外,我们还为这些数据集增加了自动标注的年龄和性别信息,从而使对其人口统计特性的评估更加细致。为进一步评估数据集的有效性,我们引入了三个新的度量标准:局部相似性、全局相似性和配对相似性,这些标准定量地衡量了数据集的难度、泛化能力和跨数据集的迁移性。使用最先进的神经网络进行基准实验表明,大规模、自动收集的数据集(例如AffectNet、FER2013)在泛化能力上表现较好,尽管存在标签噪声和人口统计偏差的问题,而受控数据集则提供了更高的标注质量,但变量较少。我们的研究结果为数据集的选择和设计提供了可操作的建议,推动了更稳健、公平和有效的FER系统的开发。
arXiv:2503.20398v1 Announce Type: 交叉
摘要:大脑使用正信号作为信号传递的一种方式。早期视觉皮层的正向交互也是正信号,通过兴奋性突触实现。仅局部交互还包含抑制作用。非负矩阵分解(NMF)捕捉了正长程交互的生物约束,并可以通过随机尖峰实现。虽然NMF可以作为视觉系统早期神经处理的抽象形式化表示,但使用NMF模块的深度卷积网络的表现并不与其相似大小的CNN相当。然而,当每个局部NMF模块后面跟随一个混合NMF活性的模块时,基准数据上的表现超过了相似大小的纯深度卷积网络。这种设置可以被认为是更符合生物处理的皮层(超)柱的模拟,并具有提高深度网络性能的潜力。
arXiv:2503.20394v1 类型: cross
摘要:特征变换对于经典机器学习至关重要,旨在从数据为中心的角度生成特征组合以增强下游任务的性能。当前的方法,如手动专家驱动过程、迭代反馈技术以及探索生成策略,在通过最小化人工参与来自动化此类数据工程工作流方面显示出潜力。然而,在这些框架中依然存在三个挑战:(1)它主要依赖于下游任务性能指标,因为评估耗时,特别是在处理大规模数据集时。 (2)随机探索结束后,特征组合的多样性难以得到保证。 (3)罕见的重要变换导致稀疏的有价值反馈,阻碍了学习过程或导致效果较差的结果。为应对这些挑战,我们介绍了一个名为FastFT的创新框架,该框架利用了三种先进的策略。我们首先通过性能预测器将特征变换评估与生成的数据集结果分离。为了解决稀疏奖励的问题,我们开发了一种评估生成变换序列新颖性的方法。将新颖性纳入奖励函数中,加速了模型对有效变换的探索,从而提高了搜索效率。此外,我们将新颖性和性能结合起来,创建了一个优先级记忆缓冲区,确保在探索过程中有效地重新访问重要经验。我们广泛的经验实验验证了我们提出框架的性能、效率和可追溯性,展示了它在处理复杂特征变换任务方面的优越性。
arXiv:2503.20384v1 Announce Type: cross
摘要:多模态大型语言模型(MLLMs)在理解和处理复杂语言和视觉数据方面表现出色,使通用型机器人系统能够解析指令并执行实体任务。然而,它们的实际部署受到巨大的计算和存储需求的阻碍。最近关于LLM层中同质模式的见解激发了减稀疏化技术来应对这些挑战,例如早期退出和标记修剪。然而,这些方法往往忽略了编码最相关的语义信息的最终层在下游机器人任务中的关键作用。鉴于神经科学中最近关于浅脑假说(SBH)的突破以及模型减稀疏化中的专家混合,我们将每个LLM层视为专家,并提出了一种用于动态LLM层激活的多层次视觉-语言-行动模型(MoLe-VLA,或简称为MoLe)架构。我们引入了一种时空感知路由器(STAR)来MoLe,根据机器人的当前状态仅激活层的部分,模拟大脑专为认知和因果推理设计的信号路径。此外,为了弥补MoLe中LLM认知能力的损失,我们设计了一种认知自我知识蒸馏(CogKD)框架。CogKD通过利用认知特征增强任务需求的理解,并提高了生成相关动作序列的能力。在RLBench仿真和真实环境中的广泛实验表明,MoLe-VLA在效率和性能方面均具有优势。具体而言,MoLe-VLA在十个任务中的平均成功率提高了8%,同时与标准LLM相比,计算成本降低了高达5.6倍。
arXiv:2503.20348v1 类别: cross
摘要:视觉语言基础模型在各种零样本任务中展示了令人印象深刻的性能,包括无需训练的定位和语义关联,主要侧重于在图像中定位物体。然而,将这些能力应用于在视频中定位动作和事件是具有挑战性的,因为动作在物理轮廓上较少,通常由高层概念描述。在本文中,我们提出VideoGEM,这是一种基于预训练图像和视频语言骨干的无需训练的空间动作定位方法。具体而言,我们将GEM的自我注意表达形式扩展到空间活动定位。我们观察到,高层语义概念,如动作,通常在图像和视频语言模型的高层中出现。因此,我们提出了一种自我注意路径中的分层权重方法,以优先考虑更高层。此外,我们引入了一种动态权重方法,以自动调整分层权重,以捕捉每层对特定提示的相关性。最后,我们引入了提示分解,分别处理动词、动作和物体提示,从而更好地定位动作。我们使用CLIP、OpenCLIP和ViCLIP三种图像和视频语言 Backbone,以及V-HICO、DALY、YouCook-Interactions和GroundingYouTube四个视频语义定位数据集对提出的方法进行了评估,结果显示,提出的无需训练的方法能够超越当前已训练的最先进的空间视频语义定位方法。
arXiv:2503.20341v1 通知类型: 交叉
摘要: 我们解决了在上下文分布不确定性下的顺序数据驱动决策问题。这个问题在许多现实场景中出现,其中学习者在存在无法控制的上下文变量的情况下优化黑盒目标函数。我们考虑上下文分布是不确定的,但已知位于Wasserstein距离定义的球形不确定集内的设定。我们提出了一种新颖的Wasserstein分布稳健贝叶斯优化算法,该算法在保持计算可实现性的同时可以处理连续的上下文分布。我们的理论分析结合了希尔伯特空间中自规范化集中结果和分布稳健优化的有限样本界,以确立亚线性遗憾界,该界与最先进的结果相符。通过在合成和真实世界问题上与其他现有方法进行广泛的比较,我们展示了我们提出的方法的简单性、有效性及其实际适用性。