arXiv:2503.14538v3 通知类型: 替换-交叉
摘要:背景:本研究介绍了使用SIGLIP和Gemma-3b架构的视觉-语言模型(VLM),用于自动急性结核病(TB)筛查。通过整合胸部X光图像和临床笔记,该模型旨在提高诊断准确性和效率,特别是在资源匮乏的环境中。
方法:VLM 将胸部X光的视觉数据与临床背景结合,生成详细且上下文相关的诊断报告。该架构使用SIGLIP进行视觉编码,使用Gemma-3b进行解码,确保对急性TB特异性病理和临床洞察的有效表示。
结果:关键急性TB病理,包括实变、空洞和结节,的检测精度为97%,召回率为96%。该模型展示了强大的空间定位能力,并且在区分TB阳性病例方面表现出色,使其成为急性TB诊断的可靠工具。
结论:VLM 的多模态能力减少了对放射科医生的依赖,提供了一种可扩展的急性TB筛查解决方案。未来工作将集中在提高对细微病理的检测能力和解决数据集偏见,以增强其推广性和在不同全球医疗保健环境中的应用。
arXiv:2503.13444v2 通告类型: replace-cross
摘要:视频因其独特的时序维度,要求精确的视听接地理解,其中答案直接与可解析的视觉证据相关联。尽管大型语言模型在推理能力方面取得了重大突破,但多模态推理,特别是视频推理,仍然未被探索。在本文中,我们介绍了VideoMind,一种用于时序可视化理解的创新视频语言代理。VideoMind 包含两项关键创新:(i) 我们识别出视频时序推理的关键能力,并开发了一种基于角色的代理工作流程,包括调度器以协调不同角色、接地器以实现时序定位、验证器以评估时序间隔准确性以及回答者以进行问答。(ii) 为了高效地整合这些不同的角色,我们提出了一种新的 LoRA 链策略,通过轻量级 LoRA 适配器实现无缝的角色切换,同时避免了使用多个模型的负担,从而平衡了效率和灵活性。在包括3个视听接地视频问答(Grounded VideoQA)、6个视频时序定位(VTG)和5个通用视频问答(VideoQA)的14个公开基准测试上进行的广泛实验表明,我们的代理在各种视频理解任务中达到了最先进的性能,突显了其在推动视频代理和长时序推理方面的有效性。
arXiv:2503.13208v2 通告类型: replace-cross
摘要:对大型语言模型(LLMs)进行提示调优(Prompt-tuning, PT)可以显著减少可训练参数数量,同时提升各种传统NLP任务的性能。然而,我们的调查表明,PT在复杂推理任务中提供的改进往往有限,甚至可能会降低LLMs的基本性能。这种现象表明,软提示在某些情况下可以产生积极影响,而在其他情况下则会产生负面影响,尤其是在推理的后期阶段。为应对这些挑战,我们首先识别出软提示中存在信息积累。通过详细的分析,我们证明这种现象通常伴随着模型深层结构中错误信息流模式,最终导致错误的推理结果。为此,我们提出了一种称为动态提示破坏(Dynamic Prompt Corruption, DPC)的新方法,以更好地利用软提示在复杂推理任务中的潜力,该方法根据软提示对推理过程的影响动态调整其影响。具体而言,DPC 包含两个阶段:动态触发和动态破坏。首先,动态触发衡量软提示的影响,确定它们是具有益处还是有害的。然后,动态破坏通过有选择地屏蔽干扰推理过程的关键词来减轻软提示的负面影响。我们通过在包括GSM8K、MATH和AQuA在内的各种LLMs和推理任务中进行广泛的实验来验证该方法的有效性。实验结果表明,DPC 始终能提升PT的效果,相比传统的提示调优,其准确率提高了4%到8%,突显了我们方法的有效性及其在提升LLMs复杂推理能力方面的潜力。
arXiv:2503.11937v2 Announce Type: replace-cross
摘要:文本到图像(T2I)扩散模型在生成高质量图像方面取得了显著的性能。然而,在新的领域(例如,通过仅文本指导的眼部开启度或汽车宽度等数值值,使连续属性保持精确控制,尤其是同时控制多个属性)仍然存在重大挑战。为了解决这一问题,我们引入了属性(Att)适配器,这是一种新颖的插件式模块,旨在使预训练的扩散模型能够实现细腻的多属性控制。我们的方法从一组样本图像中学习一个单一的控制适配器,这些样本图像可以不配对且包含多种视觉属性。Att-Adapter 利用了解耦交叉注意力模块,自然地协调了多领域属性与文本条件之间的关系。进一步地,我们将在 Att-Adapter 中引入条件变分自编码器(CVAE),以缓解过拟合问题,匹配视觉世界的多样性。在两个公共数据集上的评估结果显示,Att-Adapter 在控制连续属性方面优于所有基于 LoRA 的基线方法。此外,我们的方法能够实现更广泛的控制范围,并且在多个属性之间提高了分离性,超过了基于 StyleGAN 的技术。值得注意的是,Att-Adapter 具有灵活性,训练时不需要配对的合成数据,并且可以轻松扩展到单个模型中的多个属性。
arXiv:2503.09445v2 宣告类型: 替换-交叉
摘要:基于混合专家(Mixture-of-Experts, MoE)架构的视觉-语言模型(Vision-Language Models, VLMs)已成为多模态理解的关键范式,提供了一种强大的框架来整合视觉和语言信息。然而,任务复杂性和多样性不断增加,给异构视觉专家之间的负载均衡带来了重大挑战,优化一个专家的表现往往会导致其他专家能力的损失。为了应对任务异质性及专家负载不平衡问题,我们提出了Astrea,一种基于渐进预对齐的新型多专家协作VLM架构。Astrea引入了三项关键创新:1)一种异构专家协调机制,将四个专门模型(检测、分割、分类、描述)整合到一个全面的专家矩阵中,该矩阵涵盖了视觉理解的关键元素;2)一种动态知识融合策略,包括渐进预对齐,通过对比学习在VLM潜在空间内协调专家,同时使用概率激活的随机残差连接保持知识连续;3)一种增强的优化框架,利用动量对比学习进行长距离依赖建模,并使用自适应权重分配器实现实时专家贡献校准。在视觉问答(VQA)、图像描述和跨模态检索的12个基准任务上的广泛评估表明,Astrea在最新模型上取得了显著优势,平均性能提高了+4.7%。本研究首次实证证明渐进预对齐策略使VLMs能够克服任务异质性限制,为开发通用多模态代理建立了新的方法论基础。
arXiv:2503.06405v3 公告类型: replace-cross
摘要:会话中的多模态情感识别是一个具有挑战性的问题,因为不同模态之间存在复杂的互补交互。尤其是声学和文本线索对于从人类视角理解情感尤为重要。现有的大多数研究集中在在同一表示级别上探索音频和文本模态之间的交互。然而,一个关键问题往往被忽视:低级音频表示与高级文本表示之间的异质模态差距。为了解决这一问题,我们提出了一个名为 Heterogeneous Bimodal Attention Fusion (HBAF) 的新颖框架,用于会话情感识别中的多层次多模态交互。该提出的算法包含三个关键模块:单模态表示模块、多模态融合模块和跨模态对比学习模块。单模态表示模块将上下文内容融入低级音频表示中,以弥合异质多模态差距,从而实现更有效的融合。多模态融合模块使用动态双模态注意力和动态门控机制来过滤错误的跨模态关系,并充分挖掘模内和模态间交互。最后,跨模态对比学习模块捕捉音频和文本模态之间的复杂绝对和相对交互。在 MELD 和 IEMOCAP 数据集上的实验表明,提出的 HBAF 方法优于现有最先进的基线方法。
arXiv:2503.02881v2 传达类型: 替换-交叉
摘要:人类可以使用视觉和触觉完成复杂的接触丰富任务,具备快速适应环境变化和调整接触力的高反应能力;然而,机器人在这方面仍然面临挑战。现有的视觉模拟学习(IL)方法依赖于行为片段化来建模复杂行为,但在行为片段执行过程中无法即时响应实时触觉反馈。此外,大多数远程操作系统难以提供精细的触觉/力反馈,这限制了可执行的任务范围。为了解决这些问题,我们引入了TactAR,这是一种通过增强现实(AR)提供实时触觉反馈的低成本远程操作系统,以及一种新颖的缓慢-快速视觉-触觉模仿学习算法(RDP),用于学习接触丰富的操作技能。RDP采用两层层次结构:(1)低频的缓慢潜在扩散策略,在潜在空间中预测高层行为片段;(2)高频的不对称标记器,用于闭环触觉反馈控制。这一设计使得在统一框架内既能建模复杂的轨迹,又能快速生成反应行为。通过对三个具有挑战性的接触丰富任务进行广泛的评估,RDP相比于最先进的视觉IL基线方法,通过快速响应触觉/力反馈,显著提高了性能。此外,实验表明,RDP可以在不同类型的触觉/力传感器上应用。代码和视频可在https://reactive-diffusion-policy.github.io 获得。
arXiv:2503.02130v2 宣布类型: 替换-交叉
摘要:现代递归序列模型的一个关键组成部分是遗忘门。虽然变压器没有显式的递归形式,但我们表明,可以以数据依赖的方式降低未标准化的注意力得分来自然地将遗忘门纳入变压器中。我们称这种注意力机制为遗忘注意力,并将由此产生的模型称为遗忘变压器(FoX)。我们展示了在长上下文语言建模、长度外推以及短上下文下游任务中,FoX 的性能优于变压器,而在长上下文下游任务中的表现则与变压器相当。此外,它与 FlashAttention 算法兼容,并不需要任何位置嵌入。包括针扎干草堆测试在内的多项分析表明,FoX 也保留了变压器在相对于 Mamba-2、HGRN2 和 DeltaNet 等递归序列模型的长上下文能力上的优越性。我们还引入了一种“Pro”块设计,该设计包括一些在递归序列模型中常见的架构组件,并发现它显着提高了 FoX 和变压器的性能。我们的代码可在 https://github.com/zhixuan-lin/forgetting-transformer 获取。
arXiv:2503.01141v2 通告类型: replace-cross
摘要:链式思考提示已成为一种强大的技术,使大型语言模型(LLMs)能够解决复杂推理任务。然而,这些推理链可能非常冗长,引发了关于效率的担忧。针对这一问题,最近的研究工作通过简单的提示策略(例如,“简洁地回答”)试图减少响应长度。在这项工作中,我们首次系统研究了推理长度与模型性能之间的关系,跨越了多种压缩指令(例如,“使用10个词或更少”或“移除所有标点符号”)。通过这种方式,我们发现推理长度与准确率之间的普遍权衡存在于即使非常不同的推理链中。我们展示了这种权衡源自每个任务在问题层面的尖锐阈值行为:每个任务都有一个固有的“令牌复杂度”——完成问题所需的最小令牌数。我们展示如何令牌复杂度使得我们能够计算准确率-压缩权衡的信息论上限,发现基于提示的压缩策略远远达不到这些理论上限。这表明可能存在显著的改进空间,我们的框架提供了一个基准,以帮助研究人员评估推理效率的进步。同时,我们的工作也突出了自适应压缩的重要性——为较容易的问题提供较短的回答,并展示了令牌复杂度是一个衡量这一能力的有用工具。
arXiv:2502.19231v2 宣告类型: 交叉替换
摘要:生成型人工智能(GAI)的出现标志着一个转折点,改变了社会对知识获取的看法。虽然GAI不能完全信任用于决策,但它仍然可以提供有价值的信息,可以将其集成到决策管道中。与其将GAI的不确定性与固有的随机性视为问题,我们将其视为机会。实际上,给定提示的变量回答可以利用来构建一个先验分布,反映AI预测的确定性。该先验分布可以与定制的数据集结合起来,进行全贝叶斯分析,并具有AI驱动的先验。在本文中,我们探讨了在非参数贝叶斯框架下实现这种可能性的可能性。基本思想是在AI生成模型作为基础的数据生成分布上分配狄利克雷过程先验分布。先验的超参数可以在外部调整,以评估AI先验的有用性。通过在扩展数据上计算适当随机化函数,实现后验模拟,扩展数据包括观测(标记)数据以及使用AI填补标签的假数据。该策略可以并行化,并通过优化而不是从条件分布采样快速产生独立同分布样本。我们的方法能够以一致的概率方式利用AI预测进行(预测)推理和不确定性量化。