LLM2D

arXiv 论文列表

作者: Haoran Chen, Junyan Lin, Xinhao Chen, Yue Fan, Xin Jin, Hui Su, Jianfeng Dong, Jinlan Fu, Xiaoyu Shen
arXiv:2504.21447v1 交叉类型: cross 摘要: 多模态大语言模型(MLLMs)已经在广泛的任务中取得了令人印象深刻的表现,通常使用CLIP-ViT作为其视觉编码器,因为其在文本-图像对齐方面的能力很强。尽管先前的研究表明不同的CLIP-ViT层捕捉不同类型的信息,浅层层专注于细粒度的视觉细节,而深层层与文本语义对齐更紧密,但大多数MLLMs仍然基于经验的启发式方法选择视觉特征,而不是系统分析。在这项工作中,我们提出了一种基于层级表示相似性的方法,将具有类似行为的CLIP-ViT层分成浅层、中层和深层三类,并评估其对MLLM性能的影响。在此基础上,我们重新审视了大规模MLLM中视觉层的选择问题,训练了从14亿到70亿参数的LLaVA风格模型。通过在10个数据集和4个任务上进行大量的实验,我们发现:(1) 深层层对于OCR任务是必不可少的;(2) 浅层和中层在涉及计数、定位和对象定位的推理任务中显著优于深层层;(3) 跨浅层、中层和深层的轻量化特征融合始终优于专业化融合基线和单层选择,在9个数据集中实现了性能提升。我们的工作提供了第一个关于MLLM中视觉层选择的有原则的研究,为更深入地探究MLLM中的视觉表示学习奠定了基础。
发布时间: 5/1/2025
查看原文
作者: Chenkai Zhang, Yiming Lei, Zeming Liu, Haitao Leng, ShaoGuo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang
arXiv:2504.21435v1 交叉类型公告 摘要:随着多模态大型语言模型(MLLMs)的快速发展,越来越多的基准测试已被建立起来,以评估这些模型的视频理解能力。然而,这些基准测试主要关注\textbf{独立}视频,并主要评估“视觉元素”如人类动作和物体状态。事实上,现代视频通常包含复杂的连续叙事,通常以\textbf{系列}的形式呈现。为了解决这一挑战,我们提出\textbf{SeriesBench},这是一个由105个精心策划的叙事驱动系列组成的基准测试,涵盖了28个需要深刻叙事理解的专业任务。具体来说,我们首先选择了一系列涵盖各种类型的戏剧系列。然后,我们引入了一种新颖的长跨度叙事注释方法,并与全面信息转换方法结合,将手动注释转换为多种任务格式。为了进一步增强模型对系列内部情节结构和人物关系的详细分析能力,我们提出了一种新颖的叙事推理框架,\textbf{PC-DCoT}。在\textbf{SeriesBench}上的广泛结果表明,现有的MLLMs在理解叙事驱动的系列时仍然面临重大挑战,而\textbf{PC-DCoT}使这些MLLMs能够实现性能改进。总体而言,我们的\textbf{SeriesBench}和\textbf{PC-DCoT}突显了提高模型能力以理解叙事驱动系列的关键必要性,指导未来MLLMs的发展。SeriesBench 在 https://github.com/zackhxn/SeriesBench-CVPR2025 公开可获取。
发布时间: 5/1/2025
查看原文
作者: K{\i}van\c{c} \c{S}erefo\u{g}lu, \"Onder G\"urcan, Reyhan Aydo\u{g}an
arXiv:2504.21428v1 宣称类型:交叉学科 摘要:我们提出了一种仿真工具,用于评估自主多无人机(无人驾驶航空器)在超视距(BVLOS)操作中的团队形成。该工具模拟了无人机在动态和对抗条件下协作和执行任务的情况,其中拜占庭无人机试图干扰操作。该工具使研究人员能够在具有可配置任务参数和对抗行为的控制环境中集成和比较各种团队形成策略。每次仿真运行的日志以结构化方式存储,并包含性能指标,以便可以直接进行统计分析。该工具适用于测试和改进实际应用中的无人机协调策略。
发布时间: 5/1/2025
查看原文
作者: Shermin Shahbazi, Mohammad-Reza Nasiri, Majid Ramezani
arXiv:2504.21427v1 Announce Type: cross 摘要:准确分类EEG信号对于脑-计算机接口(BCIs)和神经假体应用至关重要,但许多现有方法未能考虑到EEG数据的非欧几里得、流形结构,导致性能不佳。保留这种流形信息对于捕获EEG信号的真实几何结构至关重要,但传统的分类技术大多忽略了这种需求。为此,我们提出了一种名为MPEC(Manifold-Preserved EEG Classification via an Ensemble of Clustering-Based Classifiers)的方法,引入了两项关键创新:(1)一个特征工程阶段,结合协方差矩阵和径向基函数(RBF)核,捕获EEG通道之间的线性和非线性关系;(2)一个聚类阶段,采用专为黎曼流形空间设计的修改后的K-means算法,确保局部几何敏感性。通过多种聚类为基础的分类器的集成,MPEC实现了显著优于BCI竞赛IV数据集2a的验证结果。
发布时间: 5/1/2025
查看原文
arXiv:2504.21415v1 Announce Type: cross 摘要:用户身份验证是确保计算机系统安全访问的关键,但传统方法在易用性、成本和安全性方面存在局限性。基于对用户与鼠标设备自然交互行为分析的鼠标动态身份验证提供了一种成本效益高、非侵入性和适应性强的解决方案。然而,在确定所需数据量、平衡准确性和实用性,以及有效捕捉时间行为模式方面仍存在挑战。在此研究中,我们提出了一种基于高斯核密度估计(KDE)和Kullback-Leibler(KL)散度的统计方法来估计训练身份验证模型所需的充分数据量。我们引入了鼠标认证单元(MAU),利用近似熵(ApEn)来优化段长,以实现高效且准确的行为表征。此外,我们设计了局部时间鼠标认证(LT-AMouse)框架,集成了1D-ResNet进行局部特征提取和GRU用于建模长期时间依赖关系。以Balabit和DFL数据集为例,我们显著减少了数据规模,DFL数据集特别减少了10倍的数据量,极大地减轻了训练负担。此外,我们根据近似熵的斜率在不同的数据集中确定了用户身份认证系统的最优输入识别单元长度。使用不平衡样本进行训练,我们的模型在DFL数据集上的盲目攻击防御AUC为98.52%,在Balabit数据集上为94.65%,超过了当前的SOTA性能。
发布时间: 5/1/2025
查看原文
作者: Xinyi Liu, Yujie Wang, Shenhan Zhu, Fangcheng Fu, Qingshuo Liu, Guangming Lin, Bin Cui
arXiv:2504.21411v1 Announce Type: 横跨领域 摘要:Galvatron 是一个用于高效训练大规模基础模型的分布式系统。它通过自动识别最高效的混合策略,克服了选择最优并行策略的复杂性,该策略涵盖了数据并行、张量并行、流水线并行、切片数据并行以及重计算。该系统的架构包括硬件和模型分析的性能分析器、使用决策树和动态规划进行策略优化的搜索引擎,以及高效执行这些策略的运行时。在各种集群上的基准测试显示,Galvatron 的吞吐量优于现有框架。这个开源系统提供了用户友好的接口和详细的文档,使复杂的分布式训练变得可行且高效。Galvatron 的源代码可在 https://github.com/PKU-DAIR/Hetu-Galvatron 获取。
发布时间: 5/1/2025
查看原文
arXiv:2504.21383v1 通知类型: 交叉 摘要:在先进(SOTA)离线强化学习(RL)方面,最近的进步主要集中在解决函数近似的误差问题,这会导致对分布外动作的Q值的过度估计,而静态数据集加剧了这一挑战。然而,在在线游戏中的推荐系统等高风险应用中,由于玩家的心理(意图)受到游戏体验的影响,以及平台固有的不稳定因素,带来了额外的复杂性。这些因素在各政策之间创建了高度稀疏、部分重叠的状态空间,并且在实验路径选择逻辑的影响下,进一步偏向于特定的政策,从而偏倚状态空间。当前的SOTA方法通过将已知的反事实动作剪切为分布外的状态,限制了从这种离线数据中学习的能力,因为这些动作在未观察到的状态上表现不佳。这进一步加剧了保守的Q学习,并需要更多的在线探索。FAST-Q 引入了一种新颖的方法,该方法通过(1)利用梯度反转学习来构建平衡的状态表示,从而使玩家的状态和动作之间的政策特定偏差正则化,从而实现反事实估计;(2)在静态数据利用的同时支持并行的离线反事实探索;以及(3)提出了一种Q值分解策略以实现多目标优化,并促进基于短期和长期目标的可解释推荐。这些创新证明了FAST-Q优于先前的SOTA方法,并展示了在我们的易变游戏平台上,玩家收益增加了至少0.15%,终身价值(LTV)提高了2%,由推荐驱动的参与度增强了0.4%,玩家的平台停留时间提高了2%,以及在推荐方面的成本减少了令人印象深刻的10%。
发布时间: 5/1/2025
查看原文
arXiv:2504.21372v1 交叉类型: cross 摘要: 语音事件提取(SpeechEE)是一项挑战性任务,它位于自动语音识别(ASR)和自然语言处理(NLP)的交叉点,要求从口语中识别结构化的事件信息。在本文中,我们提出了一种模块化的、基于流水线的SpeechEE框架,该框架整合了高性能的ASR与语义搜索增强的大语言模型(LLMs)提示。该系统首先使用包括基于规则、BERT 和LLM 的混合筛选机制来分类可能包含事件的语音片段。然后,它利用动态增强的少量样本LLM 提示,结合语义相似性检索,来识别事件触发型并提取相应的论元。我们使用多种LLMs(Llama3-8B、GPT-4o-mini 和o1-mini)对流水线进行了评估,强调了o1-mini 的显著性能提升,该模型在事件触发分类上的F1得分为63.3%,在论元分类上的F1得分为27.8%,超过了先前的基准。我们的结果表明,在配备检索增强的LLMs 的情况下,流水线方法可以与端到端系统竞争或超越,并且保持解释性和模块性。本文为LLM驱动的事件提取提供了实用见解,并为未来结合文本和声学特征的混合模型开辟了途径。
发布时间: 5/1/2025
查看原文
作者: Pramook Khungurn, Sukit Seripanitkarn, Phonphrm Thawatdamrongkit, Supasorn Suwajanakorn
arXiv:2504.21368v1 交叉类型: cross 摘要: 扩散自编码器(DAEs)通常被形式化为一个噪声预测模型,并使用线性-\(\beta\)噪声调度进行训练,其中大部分采样步骤在高噪声水平下进行。因为高噪声水平与恢复大范围的图像结构相关,而低噪声水平与恢复细节相关,这种配置会导致低质量和模糊的图像。然而,在已经包含了结构信息的潜在代码的情况下,应该有可能在较少的步骤中提高细节的恢复质量。基于这一见解,我们提出了一种新的DAE训练方法,以提高重构图像的质量。我们将训练分为两个阶段。在第一个阶段,DAE作为传统的自编码器进行训练,总是将噪声水平设置为最高,迫使编码器和解码器用结构信息填充潜在代码。在第二个阶段,我们引入了一个噪声调度,使更多的时间集中在低噪声区域,允许DAE学习如何完善细节。我们的方法生成的图像具有准确的高层次结构和低层次细节,同时仍然保留潜在代码的有用特性。
发布时间: 5/1/2025
查看原文
arXiv:2504.21366v1 交叉公告类型: 摘要:当前的音视频源分离方法主要采用两种设计策略。第一种策略是在编码器的瓶颈层融合音频和视觉特征,然后通过解码器处理融合后的特征。然而,当两种模态之间存在显著差异时,这种做法可能会导致关键信息的丢失。第二种策略避免直接融合,而是依靠解码器来处理音频和视觉特征之间的交互。然而,如果编码器未能充分整合跨模态的信息,解码器可能无法有效地捕捉它们之间的复杂关系。为了应对这些问题,本文提出了一种基于门控机制的动力融合方法,该方法动态调整模态融合程度。这种方法缓解了仅依赖解码器的局限性,促进了音频和视觉特征的有效合作。此外,引入了一个音频注意力模块,以增强音频特征的表达能力,从而进一步提升模型性能。实验结果表明,我们的方法在两个基准数据集上实现了显著的性能提升,验证了其在音视频源分离任务中的有效性和优势。
发布时间: 5/1/2025
查看原文