LLM2D

arXiv 论文列表

作者: Dachun Kai, Yueyi Zhang, Jin Wang, Zeyu Xiao, Zhiwei Xiong, Xiaoyan Sun
arXiv:2504.13042v2 通知类型: replace-cross 摘要: 在本文中,我们解决了模糊视频超分辨率(BVSR)任务,目标是从低分辨率(LR)和模糊输入中生成高分辨率(HR)视频。当前的BVSR方法往往无法在高分辨率下恢复清晰细节,导致由于去模糊所需的信息不足以及LR帧中缺乏高频细节而出现明显的伪影和抖动。为了解决这些挑战,我们引入了事件信号到BVSR,并提出了一种新颖的事件增强网络,Ev-DeblurVSR。为了有效地融合帧和事件中的信息进行特征去模糊,我们引入了一种相互特征去模糊模块,该模块利用帧内事件的运动信息去模糊帧特征,同时利用帧中的全局场景上下文增强事件特征。此外,为了增强时间一致性,我们提出了一种混合变形对齐模块,在变形对齐过程中充分利用帧间事件和光流中的互补运动信息,以提高运动估计。广泛的评估结果表明,Ev-DeblurVSR在合成和现实世界数据集上都建立了新的最新性能。值得注意的是,在现实数据上,我们的方法比最近的最好BVSR基线FMA-Net在准确度上高出2.59 dB,速度快7.28倍。代码: https://github.com/DachunKai/Ev-DeblurVSR。
发布时间: 4/21/2025
查看原文
作者: Yundi Zhang, Paul Hager, Che Liu, Suprosanna Shit, Chen Chen, Daniel Rueckert, Jiazhen Pan
arXiv:2504.13037v2 宣布类型: replace-cross 摘要:心脏磁共振成像是无创心脏评估的金标准,提供了丰富的心脏解剖和生理的空间-时间视图。患者的健康因素,如人口统计学、代谢和生活方式,已知对心血管健康和疾病风险有重大影响,但这些因素仅凭CMR无法捕捉到。为了全面理解心脏健康,并为个体疾病风险提供最佳解释,必须在集成框架内同时利用CMR和患者水平的因素。最近的多模态方法开始填补这一空白,但仍往往依赖于有限的空间-时间数据,并专注于单独的临床任务,从而阻碍了对心脏健康进行全面表示的发展。为克服这些局限,我们引入了ViTa,这是一种朝着基础模型迈出的步骤,它提供了心脏的全面表示,以及对该个体疾病风险的精确解释。利用来自英国生物银行42,000名参与者的数据,ViTa结合了短轴和长轴视图的3D+T 心动电影堆栈,使心脏周期的完整捕捉成为可能。然后将这些成像数据与详细的患者水平因素相结合,实现情境意识的洞察。这种多模态范式支持一系列下游任务,包括心脏表型和生理特征的预测、心脏和代谢疾病的分割和分类,这一切都在单一统一框架内完成。通过学习一种共享的潜在表示,将丰富的成像特征与患者情境联系起来,ViTa超越了传统的任务特定模型,朝着对心脏健康的一种普遍、个体特定的理解迈进,突显了其在心脏分析中的临床效用和扩展性方面的潜力。
发布时间: 4/21/2025
查看原文
作者: Shiwen Qin, Gabriela Kadlecov\'a, Martin Pil\'at, Shay B. Cohen, Roman Neruda, Elliot J. Crowley, Jovita Lukasik, Linus Ericsson
arXiv:2504.12971v2 公告类型: replace-cross 摘要:神经架构搜索(NAS)面临着在探索能够促进架构创新的表达性强、宽泛的搜索空间与高效评估架构以有效地搜索这些空间之间的挑战。我们研究了基于上下文无关文法的训练代理模型以改进高度表达性的NAS搜索空间中的搜索。我们展示了以下几点:i) 使用零成本代理指标和神经图特征(GRAF)或通过微调现成的语言模型训练的代理模型在评估数据集内外的架构性能预测方面具有高度的预测能力,ii) 这些代理模型可以在搜索新数据集时筛选出不良架构,从而显著加快搜索速度并达到更好的最终性能,iii) 这些代理模型还可以直接用作搜索目标,以实现巨大的速度提升。
发布时间: 4/21/2025
查看原文
作者: Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen
arXiv:2504.12867v2 宣告类型:替换-交叉 摘要:人类语言不仅仅是信息的传递,它还是情感的深刻交流和个体之间的情感连接。尽管文本到语音(TTS)模型已取得了重大进展,但在控制生成语音的情感表达方面仍然面临着挑战。在本文中,我们提出了EmoVoice,这是一种新颖的情感可控TTS模型,该模型利用大规模语言模型(LLMs)实现精细的自由风格自然语言情感控制,并设计了一种音素增强变体,使模型能够并行输出音素令牌和音频令牌以增强内容一致性,这一设计受到了chain-of-thought(CoT)和chain-of-modality(CoM)技术的启发。此外,我们引入了EmoVoice-DB,这是一个高质量的40小时英语情感数据集,其特征是具有表现力的语音和细粒度的情感标签,以及自然语言描述。EmoVoice仅使用合成训练数据在英语EmoVoice-DB测试集上实现了最先进的性能,并使用我们内部数据在中文Secap测试集上实现了最先进的性能。我们进一步考察了现有情感评估指标的可靠性以及这些指标与人类感知偏好之间的对齐情况,并探索使用最新多模态LLM GPT-4o-audio和Gemini评估情感语音。可在https://anonymous.4open.science/r/EmoVoice-DF55获取演示样本。数据集、代码和检查点将被发布。
发布时间: 4/21/2025
查看原文
作者: Lidong Zhai, Zhijie Qiu, Lvyang Zhang, Jiaqi Li, Yi Wang, Wen Lu, Xizhong Guo, Ge Sun
arXiv:2504.12735v2 宣告类型: replace-cross 摘要:本文提出了“雅典学院”多代理七层框架,旨在系统地解决人工智能(AI)艺术创作中的多代理系统(MAS)面临的挑战,如协作效率、角色分配、环境适应和任务并行性。该框架将MAS划分为七个层次:多代理协作、单代理多角色扮演、单代理多场景遍历、单代理多能力化身、相同大模型的单代理实现相同目标代理、不同大模型的单代理实现相同目标代理以及相同目标代理的多代理合成。通过在艺术创作中的实验验证,该框架展示了其在任务协作、跨场景适应和模型融合方面的独特优势。本文进一步讨论了当前面临的挑战,如协作机制优化、模型稳定性和系统安全性,并提出通过元学习和联邦学习等技术进行未来探索。该框架为人工智能艺术创作中的多代理协作提供了一种结构化的方法,并促进了艺术领域的创新应用。
发布时间: 4/21/2025
查看原文
作者: Ashwinee Panda, Vatsal Baherwani, Zain Sarwar, Benjamin Therien, Supriyo Chakraborty, Tom Goldstein
arXiv:2504.12463v2 Announce Type: replace-cross 摘要:专家混合(MoE)预训练比密集Transformer预训练更具可扩展性,因为MoE学习将输入路由到其前向参数的一个稀疏集合。然而,这意味著MoE只接收一个稀疏的反向更新,导致训练不稳定性和次优性能。我们提出了一种轻量级的近似方法,该方法使得MoE路由器接收密集的梯度更新,同时继续稀疏激活其参数。我们称之为Default MoE的方法,用以前训练过程中见过的专家输出的指数移动平均值代替缺失的专家激活。这使得路由器能够为每个令牌从每个专家接收到信号,从而显著改善了训练性能。我们的Default MoE在多种设置下优于标准的TopK路由,而无需显著增加计算开销。代码:https://github.com/vatsal0/default-moe。
发布时间: 4/21/2025
查看原文
作者: Vinay Shukla, Prachee Sharma, Ryan Rossi, Sungchul Kim, Tong Yu, Aditya Grover
arXiv:2504.12354v2 Announce Type: replace-cross 摘要:在图像中嵌入水印是一项计算机视觉领域非常感兴趣的基本问题,而近年来生成图像的迅速发展加剧了这一问题。当前最先进的技术在实际部署时面临着计算和统计挑战,例如执行速度缓慢。此外,其他工作在追求快速水印速度的同时,在其鲁棒性或感知质量方面表现较差。在本工作中,我们提出了一种名为 WaterFlow (WF) 的方法,该方法基于学习到的latent依赖水印,是一种快速且极其鲁棒的高保真视觉水印方法。我们的方法利用预训练的潜扩散模型将任意图像编码到潜空间中,并生成一个学习到的水印,然后将其嵌入到潜域的傅里叶域中。变换是通过可逆流层指定的,这种变换增强了预训练模型的潜空间表达力,以更好地保真图像质量,同时允许鲁棒性和处理简便的检测。特别是,WaterFlow 在通用鲁棒性方面表现出最先进的性能,并且是第一个能够有效防御复杂联合攻击的方法。我们在三个广泛使用的实际和生成数据集上验证了我们的发现:MS-COCO、DiffusionDB 和 WikiArt。
发布时间: 4/21/2025
查看原文
arXiv:2504.12309v2 通告类型: 替换-交叉 摘要:从2000年至2015年,联合国千年发展目标指导了全球优先事项。随后的可持续发展目标(SDGs)采用了一种更加动态的方法,每年更新指标。随着2030年的临近,如果进步滞后,创新加速策略就变得至关重要。本研究开发了一种基于AI的知识图系统,用于分析SDG之间的联系、发现潜在的新目标并在线可视化这些目标。使用官方SDG文本、Elsevier的关键词数据集以及2020.01-2024.04年间1,127份TED Talk转录文本(共269场来自2023年),试点研究采用了AI推测设计、大语言模型以及检索增强生成技术。主要发现包括:(1) 热图分析揭示了目标10和目标16之间的强烈关联,以及目标6的最少覆盖。(2) 在知识图谱中,随着时间的模拟对话揭示了新的中心节点,展示了更丰富数据如何支持发散思维和目标清晰性的提高。(3) 提出了六个潜在的新目标,核心聚焦于公平、韧性以及技术驱动的包容性。这种推测性AI框架为决策者提供了新的见解,并为未来的多模态和跨系统SDG应用奠定了基础。
发布时间: 4/21/2025
查看原文
作者: Julia Kreutzer, Eleftheria Briakou, Sweta Agrawal, Marzieh Fadaee, Kocmi Tom
arXiv:2504.11829v2 公告类型: replace-cross 摘要:多语言大规模语言模型(mLLMs)的生成能力和语言覆盖范围正在迅速发展。然而,对于mLLMs生成能力的评估实践仍然缺乏全面性、科学严谨性和研究实验室之间的持续采用,这损害了它们在有意义地指导mLLM开发方面的潜力。我们借鉴了机器翻译(MT)评估领域的经验,这是一个曾经面临类似挑战,并在数十年间发展出了透明报告标准和可靠的多语言生成模型评估方法的领域。通过针对生成评估流程中的关键阶段进行目标导向的实验,我们展示了如何从MT评估实践中更深入地理解模型质量差异。此外,我们确定了用于 robust meta-evaluation 的 mLLMs 的关键组成部分,确保评估方法本身也得到了严格的评估。我们将这些洞见提炼成一份可操作的建议清单,为 mLLM 研究和开发提供指导。
发布时间: 4/21/2025
查看原文
作者: Aaron Havens, Benjamin Kurt Miller, Bing Yan, Carles Domingo-Enrich, Anuroop Sriram, Brandon Wood, Daniel Levine, Bin Hu, Brandon Amos, Brian Karrer, Xiang Fu, Guan-Horng Liu, Ricky T. Q. Chen
arXiv:2504.11713v2 通知类型: 替换-交叉 摘要: 我们引入了伴随采样算法,这是一种高度可扩展且高效的算法,用于学习从非标准化密度或能量函数中采样的扩散过程。这是第一个允许显著多于能量评估和模型样本的梯度更新次数的方法,使我们能够扩展到比以前的方法探索的更大规模的问题设置中。我们的框架在随机最优控制方面具有坚实的理论基础,并与伴随匹配具有相同理论保证,能够进行无需采取措施将样本推向目标分布的训练。我们展示了如何在笛卡尔坐标和扭转坐标中结合关键对称性和周期边界条件,以建模分子。通过在经典能量函数上的大量实验,我们展示了该方法的有效性,并进一步扩展到基于神经网络的能量模型中,其中我们在多种分子系统中进行了拟合一致构像生成。为了鼓励进一步研究开发高度可扩展的采样方法,我们计划开源这些具有挑战性的基准,成功的算法可以直接影响计算化学的进步。
发布时间: 4/21/2025
查看原文