LLM2D

arXiv 论文列表

作者: Wei Zeng, Xuebin Chang, Jianghao Su, Xiang Gu, Jian Sun, Zongben Xu
arXiv:2503.23407v1 交叉域生成类型:交叉 摘要:基于编码器-解码器AI架构的跨域生成模型在生成逼真图像方面引起了广泛关注,领域对齐对于生成准确性至关重要。领域对齐方法通常直接处理初始分布,但不匹配或混合聚类可能导致解码器中的模式崩溃和混合问题,从而影响模型的泛化能力。在本文中,我们创新了一种跨域对齐和生成模型,引入了基于几何映射的规范潜在空间表示,以在严格和精确的方式对齐跨域潜在空间,从而避免编码器-解码器生成架构中的模式崩溃和混合现象。我们称此模型为GMapLatent。该方法的核心在于通过使用规范参数化的装饰潜在空间来无缝地对齐潜在空间,并严格遵循聚类对应关系约束。我们首先(1)通过组合重心平移、最优传输合并和受约束的谐波映射,将潜在空间转换为规范参数域,然后(2)在规范参数域上计算具有聚类约束的几何配准。这一过程实现了新转换潜在空间之间的双射(一对一且满射)映射,并精确对齐聚类对。通过嵌入编码器-解码器管道中的对齐潜在空间实现跨域生成。实验结果表明,GMapLatent在灰度图像和彩色图像上的效率、有效性及适用性,并且证明所提出的模型在现有模型中具有优越的性能。
发布时间: 4/1/2025
查看原文
作者: Junsu Kim, Yunhoe Ku, Dongyoon Han, Seungryul Baek
arXiv:2503.23402v1 更新类型: cross 摘要: 几乎零样本类增量学习(FSCIL)由于训练数据极为有限而具有挑战性;同时又旨在减少灾难性遗忘并学习新信息。我们提出了一种名为Diffusion-FSCIL的新型方法,该方法使用一个冻结的文本到图像扩散模型作为骨干。我们的假设是,可以通过大型生成模型的能力来解决FSCIL问题,受益于1)大规模预训练的生成能力;2)多尺度表示;3)通过文本编码器实现的表示灵活性。为了最大化表示能力,我们建议提取多个互补的扩散特征,这些特征在轻微的特征蒸馏支持下扮演潜在重演的角色,以防止生成偏见。我们的框架通过以下方式实现效率:1)使用一个冻结的骨干;2)最少的可训练组件;3)批量处理多次特征提取。在CUB-200、miniImageNet和CIFAR-100上的广泛实验表明,Diffusion-FSCIL超过了现有最佳方法,并在以前学习的类别上保持了性能,并有效适应新的类别。
发布时间: 4/1/2025
查看原文
arXiv:2503.23395v1 宣告类型: cross 摘要:大型语言模型(LLMs)在自然语言处理任务中展现了非凡的灵活性,促使最近努力通过开发音频大型语言模型(Audio LLMs)将它们的多模态能力扩展到语音处理。尽管Audio LLMs在语音识别和合成任务中表现出色,但它们在面对真实世界环境中提出的听觉认知挑战,如听觉理解、听觉回忆等,尤其是在存在背景噪音或重叠语音的情况下,其性能尚不清楚。不同于具有大量文本数据进行预训练和重新训练的文本基于LLMs,由于模拟真实世界听觉认知场景的有限数据集以及训练过程中的听觉认知标签获取难题,Audio LLMs重新训练难度较大。虽然测试时计算(TTC)方法已被证明可以增强文本基于LLMs的推理能力,但一个关键挑战在于设计这些TTC方法来提升Audio LLMs的听觉能力。本研究旨在通过以下方式解决这两个研究空白:(i)探索Audio LLMs的听觉认知能力,(ii)使用TTC方法提升其能力。我们使用一个自收集数据库对五种不同的Audio LLMs进行了听觉认知研究,并提出了五种TTC方法以增强推理过程中的听觉认知能力。我们的发现表明,Audio LLMs在更复杂的听觉认知任务中的性能降低。我们提出的方法显著增强了听觉认知能力,促进了更适合实际应用,如助听设备、基于语音的AI助手和通信技术的更适应性和抗压性Audio LLMs的发展。
发布时间: 4/1/2025
查看原文
arXiv:2503.23394v1 宣告类型: cross 摘要: 理解大脑复杂非线性动力学如何产生适应性认知和行为是神经科学中的一个核心挑战。这些动力学表现出无标度和分形的特性,影响神经网络的重构。然而,传统的神经成像模型受到线性和站定时假定的限制,限制了它们捕捉这些过程的能力。基于变换器的架构因其能够捕捉长程相关性而与大脑的分层和时间组织相契合。我们提出了多频带大脑网络(MBBN),这是一种基于变换器的框架,通过结合无标度网络原则和频带分辨的多频带自注意力机制,从功能性磁共振成像(fMRI)建模频率特异性时空大脑动力学。MBBN基于UK Biobank、ABCD、ABIDE三个大规模神经成像队列进行训练,共包含45,951个个体,揭示了以前未检测到的频率依赖网络交互,阐明了精神疾病(如ADHD、ASD、抑郁)中的连接性中断。这一验证显示了MBBN的强大泛化能力,并突出了跨人群保留的核心神经原理。与最先进的方法相比,MBBN的预测准确性最高可提高30.59%,展示了频率相关时空建模在捕捉潜在神经计算方面的优势。MBBN的可解释性揭示了神经发育障碍的新频率特异性生物标志物,提供了对大脑功能分层组织的洞察。通过提供一种可解释的时空学习框架,MBBN提供了关于神经计算如何支撑认知功能和精神易感性的见解,并对脑解码、认知神经科学和精准精神病学具有重要意义。
发布时间: 4/1/2025
查看原文
作者: Song Lai, Zhe Zhao, Fei Zhu, Xi Lin, Qingfu Zhang, Gaofeng Meng
arXiv:2503.23390v1 宣告类型:交叉 摘要:持续学习旨在顺序学习多个任务。持续学习中的关键挑战是在两个目标之间取得平衡:保留旧任务的知识(稳定性)和适应新任务(可塑性)。经验重播方法通过存储和重播过去数据与新数据并存,已成为减轻灾难性遗忘的广泛采用的方法。然而,这些方法忽略了稳定性和可塑性权衡的动态性质,试图找到一个固定的和不变的平衡,导致在训练和推理过程中适应效果不佳。在本文中,我们提出了帕累托持续学习(ParetoCL)这一新框架,将持续学习中的稳定性和可塑性权衡重新形式化为多目标优化(MOO)问题。ParetoCL 引入了一种偏好条件模型,以高效地学习一组帕累托最优解,表示不同的权衡,并在推理过程中实现动态适应。从泛化角度来看,ParetoCL 可以被视为一种目标增强方法,它从稳定性和可塑性的不同目标组合中学习。在多个数据集和设置下的广泛实验表明,ParetoCL 在性能上超越了现有最先进的方法,并能够适应各种持续学习场景。
发布时间: 4/1/2025
查看原文
作者: Fanding Huang, Jingyan Jiang, Qinting Jiang, Hebei Li, Faisal Nadeem Khan, Zhi Wang
arXiv:2503.23388v1 宣告类型: cross 摘要: 最近的视觉-语言模型(VLMs)在测试时适应新领域方面面临着重大挑战。虽然基于缓存的方法通过利用历史信息展现了潜力,但在缓存不可靠的特征-标签对以及在查询时不分青红皂白地使用单类别信息方面存在困难,这些都严重削弱了适应准确性。为了解决这些限制,我们提出了COSMIC(基于团块的语义多空间集成CLIP),这是一种通过多粒度、跨模态语义缓存和图基查询机制增强适应性的鲁棒测试时适应框架。我们的框架引入了两个关键创新:双语义图(DSG)和团块引导超类(CGH)。双语义图通过结合文本特征、粗粒度CLIP特征和细粒度DINOv2特征来构建互补的语义空间,以捕捉丰富的语义关系。在这些双图的基础上,团块引导超类组件利用结构化的类别关系,通过关联类别选择增强预测鲁棒性。广泛的实验表明,COSMIC在多个基准测试中表现优异,相比于最先进的方法,实现了显著的性能改进:在分布外任务上提高了15.81%,在使用CLIP RN-50进行跨域生成任务上提高了5.33%。代码可在github.com/hf618/COSMIC获取。
发布时间: 4/1/2025
查看原文
作者: Haiduo Huang, Yadong Zhang, Pengju Ren
arXiv:2503.23379v1 宣布类型: cross 摘要: 动态卷积通过适配性地结合多个核来增强模型容量,但面临关键权衡:先前的工作要么(1)通过线性扩展核的数量引发显着的参数开销,要么(2)通过复杂的核交互牺牲推理速度,要么(3)难以共同优化动态注意力和静态核。我们还观察到,预训练的卷积神经网络(CNNs)类似于大型语言模型(LLMs)中的层间冗余。具体来说,密集的卷积层可以通过从共享“父”卷积核生成的“子”层来高效地替换,而无需改变卷积结构。 为了应对这些限制并实施数值共享机制,我们提出了一种轻量级卷积核插件,名为KernelDNA。它将核适应拆分为输入相关的动态路由和预训练的静态调制,确保参数效率和硬件友好的推理。与通过多核集合扩展参数的现有动态卷积不同,我们的方法利用跨层的权重共享和基于适配器的调制,无需改变标准卷积结构即可实现动态核的专业化。此设计保留了标准卷积的原生态计算效率,同时通过输入适应的核调整增强表示能力。在图像分类和密集预测任务上的实验表明,KernelDNA 在动态卷积变种中实现了最高的精度效率平衡。我们的代码可在 https://github.com/haiduo/KernelDNA 获取。
发布时间: 4/1/2025
查看原文
作者: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
arXiv:2503.23377v1 类型: cross 摘要: 本文介绍了一种名为 JavisDiT 的新颖联合音频-视频扩散变换器,用于同步音频-视频生成 (JAVG)。基于强大的扩散变换器 (DiT) 架构,JavisDiT 能够从开放式的用户提示中同时生成高质量的音频和视频内容。为了确保最佳同步,我们通过层次空间-时间同步先验 (HiST-Sypo) 估计器引入了一种精细的空间-时间对齐机制。该模块提取了全局和精细的空间-时间先验,指导视觉和听觉组件之间的同步。此外,我们提出了一种新的基准,JavisBench,包含 10,140 条高质量的文本-标题音视频,覆盖多种场景和复杂的实际场景。此外,我们特别设计了一种稳健的评估指标,用于评估生成的音频-视频对在复杂内容中的同步性。实验结果表明,JavisDiT 在确保高质量生成和精准同步方面显著优于现有方法,为 JAVG 任务设定了新的标准。我们的代码、模型和数据集将在 https://javisdit.github.io/ 公开。
发布时间: 4/1/2025
查看原文
作者: Jeonghyun Ko, Gyeongyun Park, Donghoon Lee, Kyunam Lee
arXiv:2503.23371v1 Announce Type: cross 摘要:机器学习中处理表格数据的一个关键任务是特征工程。虽然这对提高模型性能至关重要,但需要大量的专业人员和深入的领域知识,使其成为一个劳动密集型的过程。为了解决这一问题,我们提出了一种新型框架,即**FeRG-LLM**(**Fe**ature engineering by **R**eason **G**eneration **L**arge **L**anguage **M**odels),这是一种大型语言模型,旨在自动在80亿参数的规模上进行特征工程。我们构建了两阶段的对话流程,使语言模型能够分析机器学习任务并发现新的特征,展示其链式思维(Chain-of-Thought,CoT)能力。我们使用这些对话流程对Llama 3.1 8B模型进行微调,并结合直接偏好优化(DPO)以获取反馈,从而提高新特征和模型性能的质量。我们的实验结果显示,在大多数数据集上,FeRG-LLM 的表现至少与Llama 3.1 70B相当,同时使用更少的资源并实现更短的推理时间。在分类任务中,它优于其他研究工作,在回归任务中表现良好。此外,由于它不依赖于像GPT-4这样的云托管大型语言模型,无需在生成特征时额外支付API费用,因此可以在本地部署,解决安全性问题。
发布时间: 4/1/2025
查看原文
作者: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
arXiv:2503.23368v1 宣告类型:交叉 摘要:近年来,视频扩散模型(VDMs)取得了显著进展,能够生成高度逼真的视频,并引起了研究界的关注,因其作为世界模拟器的潜力。然而,尽管具有这些能力,VDMs 由于缺乏对物理的理解,往往无法生成物理上可信的视频,导致不正确的动力学和事件序列。为了解决这一局限性,我们提出了一种新的两阶段图像到视频生成框架,明确地融合了物理知识。在第一阶段,我们采用视觉语言模型(VLM)作为粗粒度的运动规划器,结合链式思维和物理意识推理来预测近似真实世界物理动力学的粗略运动轨迹/变化,同时确保帧间一致性。在第二阶段,我们利用预测的运动轨迹/变化来引导VDM的视频生成。由于预测的运动轨迹/变化是粗略的,在推理过程中添加噪声以提供更多的自由度,使VDM能够生成更具精细细节的运动。广泛的实验结果表明,我们的框架能够生成物理上可信的运动,而比较评估则突显了我们方法在现有方法上的显著优越性。更多视频结果可在我们的项目页面上找到:https://madaoer.github.io/projects/physically_plausible_video_generation。
发布时间: 4/1/2025
查看原文