在深度学习领域,图神经网络 (GNN) 和图 Transformer 模型凭借其卓越的性能和灵活的架构设计,已成为处理结构化数据(尤其是图数据)的领先技术。传统的 GNN 通常难以有效地捕获来自远处顶点的信息。相比之下,图 Transformer 模型尤其擅长处理长距离节点关系。尽管具有这些优势,但图 Transformer 模型在扩展到大型图数据集时仍然面临计算和存储效率问题。为了解决这些挑战,我们提出了一种创新的图神经网络 (GNN) 架构,该架构集成了 Top-m 注意力机制聚合组件和邻域聚合组件,有效地增强了模型在每一层聚合来自局部和扩展邻域的相关信息的能力。这种方法不仅提高了计算效率,而且丰富了节点特征,促进了对复杂图结构的更深入分析。此外,为了评估我们提出的模型的有效性,我们将其应用于引用情感预测,这是一项在 GNN 领域以前未曾探索过的新任务。因此,我们构建了一个专门的引用网络 ArXivNet。在这个数据集中,我们专门标注了引文的感情极性(正面、中性、负面),以便进行深入的情感分析。我们的方法在顶点分类、链接预测、情感预测、图回归和可视化等多种任务中均表现出优越的性能。实验结果表明,它在多个数据集上的有效性优于现有方法。
深度伪造技术具有巨大的创新和创造潜力,但也对隐私、信任和安全构成重大风险。印度拥有庞大的印地语人口,特别容易受到深度伪造驱动的虚假信息宣传的影响。印地语的虚假视频或演讲会对农村和半城市社区产生巨大影响,因为这些地区的数字素养往往较低,人们更容易相信视频内容。开发有效的框架和检测工具来打击深度伪造的滥用需要高质量、多样化和广泛的数据集。现有的流行数据集,如 FF-DF (FaceForensics++) 和 DFDC (DeepFake Detection Challenge),都是基于英语的。因此,本文旨在创建一个首个新颖的印地语深度伪造数据集,命名为“印地语音频视频深度伪造”(HAV-DF)。该数据集是使用 faceswap、lipsyn 和语音克隆方法生成的。这一多步骤过程使我们能够创建一个丰富多样的数据集,捕捉印地语语音和面部表情的细微之处,为在印地语语境下训练和评估深度伪造检测模型提供坚实的基础。它具有独特性,因为所有以前的数据集都包含深度伪造视频或合成的音频。这种类型的深度伪造数据集可用于训练检测深度伪造视频和音频数据集的检测器。值得注意的是,新引入的 HAV-DF 数据集在现有的检测方法(如 Headpose、Xception-c40 等)上的检测精度较低,与其他知名数据集 FF-DF 和 DFDC 相比。这一趋势表明,HAV-DF 数据集提出了更难的检测挑战,这可能是由于它专注于印地语内容和多样化的操纵技术。HAV-DF 数据集填补了印地语特定深度伪造数据集的空白,有助于多语言深度伪造检测的发展。
微视频的激增正在改变流行的概念。随着研究人员深入研究庞大的多模态数据集,人们越来越关注这种流行的起源及其快速扩张的驱动力。最近的研究表明,短视频的病毒式传播不仅与其固有的多模态内容有关,而且还受到平台推荐(由观众反馈驱动)强度的强烈影响。在本文中,我们基于Mamba Hawkes过程,提出了一种框架来捕捉用户反馈中的长期依赖关系和动态事件交互。我们在大型开源多模态数据集上的实验表明,我们的模型在各种指标上显著优于最先进的方法,提升幅度达23.2%。我们相信,我们的模型能够映射用户反馈行为序列中的关系,这不仅将有助于下一代推荐算法和平台应用程序的演进,而且还将增强我们对微视频传播及其更广泛的社会影响的理解。
大型语言模型(LLM)具有强大的指令遵循能力,能够根据人类指令解释和执行任务。多模态大型语言模型(MLLM)的指令遵循能力不如LLM。然而,MLLM和LLM在指令遵循能力方面存在显著差距。本研究进行了一项初步实验,结果表明,对视觉标记进行空间下采样可以显著增强MLLM的指令遵循能力。这归因于视觉模态中大量的冗余信息。然而,这种直观的方法严重损害了MLLM的多模态理解能力。本文提出视觉模态标记压缩 (VMTC) 和跨模态注意力抑制 (CMAI) 策略,通过抑制内容生成过程中无关视觉标记的影响,来弥合MLLM和LLM之间的差距,从而提高MLLM的指令遵循能力,同时保留其多模态理解能力。在VMTC模块中,保留主要标记,并通过标记聚类和合并来压缩冗余标记。在CMAI过程中,我们通过文本到文本注意力来聚合文本到图像的注意力,以获得文本到图像的焦点分数。对分数低的文本-图像标记对进行注意力抑制。我们在指令遵循能力和VQA-V2、GQA、TextVQA、MME和MMBench五个基准测试上的综合实验表明,该策略显著增强了MLLM的指令遵循能力,同时保留了理解和处理多模态输入的能力。
大型多模态模型 (LMM) 在视觉语言任务中展现出令人印象深刻的能力,但由于其高昂的计算需求,面临着巨大的部署挑战。虽然最近的令牌约简方法在加速 LMM 方面显示出前景,但它们通常需要大量的重新训练或微调,这使得它们对于许多最先进的模型(特别是那些拥有专有训练数据的模型)而言并不实用。我们提出了一种免训练的令牌约简方法 freePruner,它可以直接应用于任何开源 LMM,无需额外训练。与依赖于令牌合并操作的现有方法不同,freePruner 采用两阶段令牌选择策略:(1) 使用我们设计的贡献度指标识别捕捉高级语义信息的枢纽令牌;(2) 通过注意力模式分析选择保留基本低级视觉细节的补充令牌。大量的实验表明,在免训练环境下,freePruner 在主流视觉问答基准测试中实现了 2 倍的加速,同时保持了相当的性能。此外,freePruner 与其他训练后加速技术(如训练后量化)正交且可以与之结合,为高效部署 LMM 提供了一种实用的解决方案。
使用SystemVerilog断言(SVA)进行形式化属性验证(FPV)对于确保设计相对于规范的完整性至关重要。然而,编写SVA是一项费力的任务,并且学习曲线陡峭。在这项工作中,我们提出了一种基于大型语言模型(LLM)的流程来自动生成高质量的SVA,该流程来自设计规范文档,名为\ToolName。我们引入了一种新颖的子任务集中微调方法,有效地解决了基线LLM生成的函数错误断言,从而使功能正确的断言数量显著增加了7.3倍。认识到语法和语义错误的普遍性,我们还开发了一种迭代细化方法,通过系统地重新提示LLM以纠正已识别的错误来增强LLM的初始输出。一个定制的编译器会生成有意义的错误消息,从而指导LLM提高准确性,进一步增强了此过程。实验表明,使用这种方法,无语法错误的断言数量增加了26%,展示了其简化FPV流程的潜力。
空间网络用于模拟地理现象,其中空间交互起着重要作用。为了分析空间网络及其内部结构,已广泛使用基于图的方法,例如社区检测。社区检测旨在从网络中提取强连接组件并揭示节点之间的隐藏关系,但它们通常不涉及属性信息。为了同时考虑基于边的交互和节点属性,本研究提出了一系列名为 region2vec 的基于图注意力网络 (GAT) 和图卷积网络 (GCN) 的 GeoAI 增强的无监督社区检测方法。region2vec 方法基于属性相似性、地理邻近性和空间交互生成节点神经嵌入,然后使用凝聚聚类基于节点嵌入提取网络社区。将所提出的基于 GeoAI 的方法与多个基线进行了比较,当需要同时最大化空间网络社区内的节点属性相似性和空间交互强度时,其性能最佳。它进一步应用于公共卫生中的短缺区域划定问题,并展示了其在区域化问题中的潜力。
可变可再生能源增加了平衡电力供需的挑战。与发电设施同址部署的电网规模电池可以帮助减轻这种错配。本文探讨了使用强化学习 (RL) 来运行与太阳能发电同址部署的电网规模电池。我们的结果表明,强化学习实现了约 61%(最高达 96%)的近似理论最优(非因果)运行,平均优于先进的控制方法。我们的研究结果表明,当难以预测未来信号时,强化学习可能是更好的选择。此外,与更简单的基于规则的控制相比,强化学习具有两个显著优势:(1)更有效地将太阳能转移到高需求时期,以及(2)电池调度在不同地点的差异性增加,减少了由许多类似动作叠加引起的潜在爬坡问题。
开发用于胸部X光片(CXR)分析报告生成的具有可解释性的系统,对于计算机辅助诊断(CAD)系统而言日益重要,这使得放射科医生能够理解这些系统做出的决策。尽管专注于报告生成的各种数据集和方法不断涌现,但在这些模型生成的报告与真实放射科医生的解读之间的一致性方面,仍然存在显著差距。在本研究中,我们首先介绍了细粒度CXR (FG-CXR)数据集,该数据集提供了放射科医生生成的标题与每个解剖结构对应的注视热力图之间的细粒度配对信息。与现有数据集(包含原始注视序列和报告,注视位置和报告内容之间存在显著错位)不同,我们的FG-CXR数据集提供了注视注意力和诊断记录之间更细粒度的一致性。此外,我们的分析表明,简单地应用黑盒图像字幕方法来生成报告并不能充分解释CXR中使用了哪些信息以及需要多长时间的注意力才能准确生成报告。因此,我们提出了一种新颖的可解释放射科医生注意力生成网络(Gen-XAI),该网络模拟放射科医生的诊断过程,明确地约束其输出与放射科医生的注视注意力和记录紧密一致。最后,我们进行了大量的实验来证明我们方法的有效性。我们的数据集和检查点可在https://github.com/UARK-AICV/FG-CXR获取。
多模态方面情感分析 (MABSA) 旨在从多模态信息(包括文本和图像)中提取方面术语及其对应的情感极性。虽然传统的监督学习方法已在该任务中显示出有效性,但大型语言模型 (LLM) 对 MABSA 的适应性仍不确定。Llama2、LLaVA 和 ChatGPT 等 LLM 的最新进展展示了其在一般任务中的强大能力,但它们在 MABSA 等复杂和细粒度场景中的性能尚未得到充分探索。在本研究中,我们对 LLM 是否适合用于 MABSA 进行了全面的调查。为此,我们构建了一个基准来评估 LLM 在 MABSA 任务上的性能,并将其与最先进的监督学习方法进行比较。我们的实验表明,虽然 LLM 在多模态理解方面显示出潜力,但它们在实现 MABSA 的令人满意结果方面面临重大挑战,尤其是在准确性和推理时间方面。基于这些发现,我们讨论了当前 LLM 的局限性,并概述了未来增强其多模态情感分析能力的研究方向。