LLM2D

arXiv 论文列表

作者: Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Long\'ep\'e
arXiv:2504.11171v1 宣告类型: cross 摘要: 我们引入了TerraMind,这是首个用于地球观测(EO)的任意到任意生成的多模态基础模型。与其它多模态模型不同,TerraMind 在不同模态的令牌级和像素级数据的双重尺度表示上进行了预训练。在令牌级上,TerraMind 编码高层上下文信息以学习跨模态关系,而在像素级上,TerraMind 利用精细粒度的表示来捕捉关键的空间细微差别。我们在全球大规模数据集的九种地理空间模态上对TerraMind 进行了预训练。在这篇论文中,我们证明了:(i) TerraMind 双尺度早期融合方法解锁了地球观测领域的零样本和少样本应用;(ii) TerraMind 引入了“模态内思考”(TiM)——在微调和推理期间生成额外的合成数据以改善模型输出的能力;(iii) TerraMind 在地球观测领域(如PANGAEA)的社区标准基准测试中取得了超越现有先进水平的性能。该预训练数据集、模型权重以及我们的代码均在宽松的许可下开源。
发布时间: 4/16/2025
查看原文
作者: Laura De Grazia, Pol Pastells, Mauro V\'azquez Chas, Desmond Elliott, Danae S\'anchez Villegas, Mireia Farr\'us, Mariona Taul\'e
arXiv:2504.11169v1 交叉公告类型 摘要:性别主义通常被定义为基于性别或性别的偏见和歧视,影响社会的每一个领域,从社会制度到人际关系和个人行为。社交媒体平台通过不仅通过文本而且还通过多种模态传播歧视内容,突显出在线分析性别主义时采用多模态方法的必要性。随着用户发布短视频的社交媒体平台的兴起,性别主义正越来越多地通过视频内容传播。自动检测视频中的性别主义是一项具有挑战性的任务,因为这需要分析语音、音频和视觉元素的组合以识别性别歧视内容。在本研究中,(1) 我们介绍了 MuSeD,一个新的用于性别歧视检测的多模态西班牙语数据集,包含来自 TikTok 和 BitChute 的约 11 小时的视频;(2) 我们提出了一种创新的标注框架,用于分析文本和多模态标签在性别歧视和非性别歧视内容分类中的贡献;(3) 我们评估了多种大型语言模型(LLMs)和多模态 LLMs 在性别主义检测任务中的性能。我们发现视觉信息对于人类和模型在分类性别歧视内容时都起到了关键作用。模型有效地识别了明确的性别歧视,但在隐含性别主义的情况下,如刻板印象和注释者也表现出低一致性的实例时,却表现不佳。这强调了任务的固有难度,因为识别隐含性别主义取决于社会和文化背景。
发布时间: 4/16/2025
查看原文
作者: William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan
arXiv:2504.11168v1 Announce Type: 攻击类型 摘要:大型语言模型(LLMs)护栏系统旨在防止提示注入和监牢攻击。然而,它们依然受到规避技术的威胁。我们展示了两种通过传统字符注入方法和算法对抗机器学习(AML)规避技术来绕过LLM提示注入和检测系统的方法。通过针对包括微软的Azure Prompt Shield和Meta的Prompt Guard在内的六种主要防护系统进行测试,我们表明这两种方法可以在不降低对抗性效用的情况下被用来规避检测,甚至在某些情况下实现100%的规避成功率。此外,我们还展示了攻击者可以利用离线白盒模型计算的词重要性排名来增强对黑盒目标的攻击成功率(ASR)。我们的发现揭示了当前LLM防护机制中的漏洞,并强调了需要更加稳健的护栏系统。
发布时间: 4/16/2025
查看原文
作者: Haohan Chen, Hongjia Liu, Shiyong Lan, Wenwu Wang, Yixin Qiao, Yao Li, Guonan Deng
arXiv:2504.11160v1 类型: cross 摘要: 视线估计,即预测视线方向,通常会面临面部图像中与视线无关的复杂干扰信息的挑战。在本文中,我们提出了一种名为DMAGaze的新颖视线估计框架,该框架从三个方面利用面部图像信息:与视线相关的全局特征(从面部图像中分离出来),局部眼睛特征(从裁剪的眼睛补丁中提取),以及头部姿态估计特征,以提高整体性能。首先,我们设计了一种新的基于连续掩模的分离器,通过分别重构眼睛区域和非眼睛区域,准确分离出与视线相关的和与视线无关的信息,实现双分支分离目标。此外,我们引入了一个名为多尺度全局局部注意力模块(MS-GLAM)的新型级联注意力模块。通过定制的级联注意力结构,它有效地在多个尺度上集中于全局和局部信息,进一步增强了分离器的信息。最后,通过检测头传递上部面部分支分离出的全局视线相关特征,结合头部姿态和局部眼睛特征,进行高精度视线估计。我们提出的DMAGaze已经在两个主流公开数据集上进行了广泛验证,取得了最先进的性能。
发布时间: 4/16/2025
查看原文
作者: Zixiong Yu, Songtao Tian, Guhan Chen
arXiv:2504.11130v1 类型: cross 摘要: 本文表明,在分类问题中,完全连接的神经网络(FCNs)和残差神经网络(ResNets)无法通过神经 tangent 核(NTK)基于核逻辑回归近似,在过拟合的情况下(即,当训练时间趋向无穷大时)。具体来说,使用交叉熵损失时,无论网络宽度有多宽(只要它是有限的),经验 NTK 会在训练时间增加时与训练样本上的 NTK 发散。为了得出这一结果,我们首先证明了多层 FCNs 和 ResNets 的 NTK 的严格正定性。然后,我们证明,在使用交叉熵损失的情况下,如果训练样本上经验 NTK 矩阵(格兰姆矩阵)的最小特征值被某个正常数下界限制,则神经网络参数在训练过程中会发散。这种行为与回归问题中通常观察到的懒惰训练阶段形成了鲜明对比。因此,通过反证法,我们展示出当网络宽度增加时,经验 NTK 在训练样本上不能均匀收敛到 NTK。我们通过在合成数据和 MNIST 分类任务上的实验证明了我们的理论结果。这一发现表明,NTK 理论在此情境下不适用,对理解分类问题中的神经网络具有重要的理论意义。
发布时间: 4/16/2025
查看原文
arXiv:2504.11109v1 交叉公告类型 摘要: 大型语言模型(LLM)在解决复杂问题方面取得了显著成果,包括数学、编程和分析大量科学报告。然而,很少有工作探讨了LLM在量子计算领域的潜力。最具有挑战性的问题是如何利用LLM在大规模下自动生成量子电路。在本文中,我们通过微调LLM并注入量子计算领域的专业知识来应对这一挑战。特别是,我们研究了生成训练数据集的机制,并构建了一个端到端的流程,以微调预训练的LLM,使其能够生成用于优化问题的参数化量子电路。我们准备了14,000个量子电路,涵盖了量子优化领域的一个重要部分:12个优化问题实例及其优化的QAOA、VQE和自适应VQE电路。微调后的LLM能够构建最新的OpenQASM 3.0中的语法正确参数化量子电路。我们通过将其参数与优化的期望值和分布进行比较,评估了参数的质量。我们的评估表明,微调后的LLM优于最先进的模型,并且参数优于随机生成的参数。由LLM生成的参数化电路和初始参数可以作为进一步优化的起点,例如量子机器学习中的模板以及编译器和硬件的基准。
发布时间: 4/16/2025
查看原文
作者: Maximilian G. Schuh, Joshua Hesse, Stephan A. Sieber
arXiv:2504.11091v1 交叉公告类型:交叉 摘要:抗生素耐药性构成了一个日益严重的全球健康危机,需要新的治疗策略来针对新型细菌机制。近年来,蛋白质结构预测以及机器学习驱动的小分子生成的进展为加速新药发现提供了希望。然而,关于如何选择和将这些模型整合到现实世界的工作流程中的实用指导仍然有限。在这项研究中,我们开发了一个从靶标识别到化合物实现的端到端的人工智能引导抗生素发现管道。我们利用预测的多种病原体蛋白质组的空间结构聚类,来识别保守的、必需的和非人源同源的靶标。然后,我们系统地评估了六种领先的三维结构感知生成模型——涵盖扩散、自回归、图神经网络和语言模型架构——在其实用性、化学有效性以及生物学相关性方面的表现。严格的后期处理过滤和商业同系物搜索将超过100,000种生成的化合物精简为一个专注于合成的集合。我们的结果突显了DeepBlock和TamGen在多种评价标准下的优异表现,同时也揭示了模型复杂性、实用性与输出质量之间的重要权衡。这项工作提供了一个比较基准和蓝图,用于早期抗生素开发中部署人工智能。
发布时间: 4/16/2025
查看原文
作者: Peng Du, Shuolei Wang, Shicheng Li, Jinjing Shi
arXiv:2504.11083v1 通知类型: 横跨 摘要:随着大规模语言模型的扩展,传统的注意力机制面临着内存消耗和能源成本指数级增长的严峻挑战。量子退火计算,由于其在计算效率和低能耗方面的固有优势,为构建新颖的深度学习架构提供了创新方向。本研究提出了首个基于量子退火机制的多头注意力(QAMA)机制,通过二次非线性二元优化(QUBO)建模前向传播和基于能量的反向传播,实现了与经典注意力架构的无缝兼容。该方法创新性地利用了伊辛模型中量子比特的相互作用特性,将传统的 $O(n^2)$ 空间时间复杂度优化为线性资源消耗。结合相干伊辛机器(CIM)的光学计算优势,系统保持了毫秒级的实时响应能力,同时显著降低了能耗。我们的重要贡献包括:理论证明建立 QAMA 数学等价于经典注意力机制;通过 QUBO 约束实现多头特异性与长程信息捕获的双重优化;利用伊辛能量方程的具体梯度证明,在计算图中将梯度传导作为唯一路径实现层间的梯度传导;提出了一种软选择机制,克服了传统二元注意力的局限性,近似连续权重。在 QBoson CPQC 量子计算机上的实验显示,QAMA 在减少推理时间至毫秒级的同时,提高了求解质量,与经典操作符的准确性相当。这项工作在架构级别率先将量子计算和深度学习整合起来,适用于任何基于注意力的模型,推动了人工智能基础计算范式的创新。
发布时间: 4/16/2025
查看原文
作者: Efthymios Georgiou, Vassilis Katsouros, Yannis Avrithis, Alexandros Potamianos
arXiv:2504.11082v1 多模态融合类型: 交叉 摘要:尽管在多模态情感分析(MSA)中广泛研究了多模态融合,但融合深度和多模态容量分配的作用尚未得到充分探索。在本文中,我们将融合深度、可扩展性和专用的多模态容量定位为主要影响因素。我们引入了DeepMLF,这是一种新型的专为深度融合设计的可学习标记多模态语言模型(LM)。DeepMLF 利用了视听编码器和预训练解码器LM,并在其各层中增加了跨模态信息。我们在LM中附加了可学习标记,这些标记:1) 以受控的方式捕捉模态间的交互,并2) 保留各模态独立的信息流。这些融合标记通过LM块中的因果自注意聚集语言信息,并通过跨注意力MM块与视听信息整合。作为专为多模态设计的容量,这种设计允许在多层间实现渐进融合,提供了融合过程中的深度。我们的训练配方结合了模态特定损失和语言建模损失,解码器LM的任务是预测真实的情感极性。在三个具有不同数据集特性的MSA基准测试中,DeepMLF 达到了最先进的性能。我们的结果证实,更深的融合能实现更好的性能,最佳的融合深度(5-7层)超过了现有方法的深度。此外,我们对融合标记数量的分析显示,小标记集(≈20)能实现最佳性能。我们通过视听编码器初始化实验检查了表示学习顺序(融合课程)的重要性。我们的消融研究表明了所提议的融合设计和门控的优越性,并对DeepMLF在大规模语言模型上的扩展性以及每个训练目标和嵌入正则化的影响进行了全面的考察。
发布时间: 4/16/2025
查看原文
作者: Zhou Fang, Gianmarco Mengaldo
arXiv:2504.11074v1 交叉公告类型:cross 摘要:在机器学习预测中,均方误差(MSE)和平均绝对误差(MAE)等标准误差指标量化了预测值与目标值之间的差异。然而,这些指标并没有直接评估预报的物理和/或动力学一致性,这是科学和工程应用中日益关键的问题。 事实上,一个基本但常常被忽视的问题是,机器学习预报是否保留了底层系统的动力学行为。解决这一问题对于评估机器学习模型的保真度并在关键应用场景中识别潜在故障模式至关重要。 在此工作中,我们探讨了标准预报误差指标(如MAE和MSE)与底层系统动力学性质之间的关系。为实现这一目标,我们使用了两种最近开发的动力学指数:即时维数($d$)和逆惯性($\theta$)。我们的结果显示,更大的预报误差(例如,更高的MSE)往往发生在更高的$d$(更高的复杂度)和更高的$\theta$(更低的惯性)状态中。为了进一步评估动力学一致性,我们提出了基于动力学指数的误差指标,这些指标测量了预报的$d$和$\theta$与正确值之间的差异。利用这些基于动力学指数的指标,我们对洛伦兹系统、Kuramoto-Sivashinsky方程和Kolmogorov流以及实际天气预报任务进行了直接和递归预报策略的分析。我们的研究发现,在ML预报中动力学性质存在重大失真,特别是在长期预报或递归仿真中尤为明显,这些发现提供了补充信息,可用于改进ML模型的预报保真度。
发布时间: 4/16/2025
查看原文