arXiv 论文列表

作者: Damodar Panigrahi, Shaswata Mitra, Subash Neupane, Sudip Mittal, Benjamin A. Blakely

由于网络攻击日益复杂化，其检测和预防难度也越来越大。为此，自主智能网络防御代理（AICA）应运而生，成为关键解决方案。入侵响应系统（IRS）是AICA代理中的一个重要组成部分，对于在检测到威胁后减轻威胁至关重要。IRS 使用多种战术、技术和规程 (TTP) 来减轻攻击并恢复基础设施的正常运行。持续监控企业基础设施是 IRS 使用的一个重要 TTP。然而，每个系统都服务于不同的目的以满足运营需求。集成这些不同的持续监控来源会增加预处理的复杂性并限制自动化，最终延长攻击者利用漏洞的关键响应时间。我们提出了一种统一的 IRS 知识图谱本体论 (IRSKG)，它简化了将新企业系统作为 AICA 数据源的过程。我们的本体论可以捕获系统监控日志和补充数据，例如包含管理员定义的策略（用于指导 IRS 响应）的规则库。此外，我们的本体论允许我们整合动态变化以适应不断变化的网络威胁环境。这种强大而简洁的设计允许机器学习模型有效地进行训练，并以可解释的方式自主地将受损系统恢复到其期望状态。

发布时间: 11/26/2024

查看原文

基于本体约束的特定领域临床摘要生成

作者: Gaya Mehenni, Amal Zouaq

大型语言模型 (LLM) 为文本摘要提供了有前景的解决方案。然而，某些领域需要摘要中包含特定信息。生成这些特定领域的摘要仍然是一个开放性挑战。同样，生成内容中的幻觉是当前方法的主要缺点，阻碍了它们的部署。本研究提出了一种新方法，利用本体论创建结构化和非结构化的特定领域摘要。我们采用本体论引导的约束解码过程来减少幻觉，同时提高相关性。当应用于医学领域时，我们的方法在总结不同专业的电子健康记录 (EHR) 方面显示出潜力，使医生能够专注于与其领域最相关的信息。在 MIMIC-III 数据集上的评估证明了在生成特定领域的临床笔记摘要和减少幻觉方面的改进。

发布时间: 11/26/2024

查看原文

并非所有闪光之物皆为金子：基于不可靠模型和人工标注的评估方法

作者: Michael Hardy

“金标准”和“真实值”人工标注存在误差。这种误差的影响可能会逃过常用的标签质量指标的检测，或者在模型评估期间掩盖准确性、偏差、公平性和实用性等问题。本研究展示了即使在专家人工可靠性极低的情况下，也能回答此类问题的方法。我们分析了人工标签、GPT模型评分和描述课堂教学质量的Transformer编码器模型标注，这是一个重要、昂贵且目前只有人工才能完成的任务。我们利用两种大型语言模型（LLM）架构系列——编码器和GPT解码器，并使用新颖的方法来评估六个维度的标签质量：一致性、置信度、有效性、偏差、公平性和帮助性，从而回答了这项任务是否可以自动化的的问题。首先，我们证明了在存在不良标签的情况下使用标准指标可能会掩盖标签和模型质量：编码器系列模型在所有课堂标注任务中都取得了最先进的，甚至“超人类”的结果。但并非所有这些积极的结果在使用更严格的评估措施后仍然存在，这些措施揭示了模型和人类之间虚假的相关性和非随机种族偏差。然后，本研究扩展了这些方法，以估计如果在人机交互的背景下使用模型，模型的使用如何改变人工标签质量，发现GPT模型标签中捕获的方差会加剧受这些模型影响的人工可靠性。我们确定了一些LLM在当前数据的泛化能力范围内可以提高昂贵的人工课堂教学评分质量的领域。

发布时间: 11/26/2024

查看原文

文本如何辅助？细粒度评估揭示语言在视觉语言跟踪中的作用

作者: Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang

视觉语言跟踪（VLT）通过结合文本信息扩展了传统的单目标跟踪，在快速运动和变形等具有挑战性的条件下提供语义指导以增强跟踪性能。然而，目前的 VLT 跟踪器在多个基准测试中的性能往往不如单模态方法，语义信息有时会成为一种“干扰”。为了解决这个问题，我们提出了 VLTVerse，这是一个针对 VLT 跟踪器的第一个细粒度评估框架，它全面考虑了多种挑战因素和多样化的语义信息，希望能揭示语言在 VLT 中的作用。我们的贡献包括：（1）VLTVerse 引入了 10 个序列级挑战标签和 6 种多粒度语义信息，为 VLT 创建了一个灵活且多维的评估空间；（2）利用由挑战因素和语义类型组合而成的 60 个子空间，我们对三个主流的 SOTA VLT 跟踪器进行了系统的细粒度评估，揭示了它们在复杂场景中的性能瓶颈，并为 VLT 评估提供了新的视角；（3）通过对实验结果的解耦分析，我们研究了各种语义类型对不同算法中特定挑战因素的影响，为从数据、评估和算法维度增强 VLT 提供了必要的指导。VLTVerse、工具包和结果将可在 \url{http://metaverse.aitestunion.com} 获取。

发布时间: 11/26/2024

查看原文

基于对抗性特征学习的人体三维重建语义通信方法

作者: Shaojiang Liu, Jiajun Zou, Zhendan Liu, Meixia Dong, Zhiping Wan

随着人体三维重建技术在各个领域的广泛应用，对数据传输和处理效率的需求不断提高，尤其是在网络带宽有限且需要低延迟的场景中。本文提出了一种基于对抗性特征学习的语义通信方法（AFLSC）用于人体三维重建，该方法专注于提取和传输对三维重建任务至关重要的语义信息，从而显著优化数据流并缓解带宽压力。在发送端，我们提出了一种基于多任务学习的特征提取方法，用于从二维人体图像中捕获空间布局、关键点、姿态和深度信息，并设计了一种基于对抗性特征学习的语义编码技术，将这些特征信息编码成语义数据。我们还开发了一种动态压缩技术，以高效地传输这些语义数据，极大地提高了传输效率并降低了延迟。在接收端，我们设计了一种高效的多级语义特征解码方法，将语义数据转换回关键图像特征。最后，采用改进的ViT-扩散模型进行三维重建，生成人体三维网格模型。实验结果验证了该方法在数据传输效率和重建质量方面的优势，证明了其在带宽受限环境中的应用潜力。

发布时间: 11/26/2024

查看原文

基于大型语言模型的评判方法综述

作者: Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Yuanzhuo Wang, Jian Guo

准确一致的评估对于众多领域的决策至关重要，然而由于固有的主观性、变异性和规模性，这仍然是一项具有挑战性的任务。大型语言模型 (LLM) 已在各个领域取得了显著成功，导致出现了“LLM 作为评判者”的现象，其中 LLM 被用作复杂任务的评估者。凭借其处理多种数据类型并提供可扩展、经济高效且一致的评估的能力，LLM 为传统的专家驱动评估提供了一种引人注目的替代方案。然而，确保“LLM 作为评判者”系统的可靠性仍然是一项重大挑战，需要仔细的设计和标准化。本文对“LLM 作为评判者”进行了全面的综述，探讨了核心问题：如何构建可靠的“LLM 作为评判者”系统？我们探索了提高可靠性的策略，包括提高一致性、减轻偏差以及适应不同的评估场景。此外，我们提出了评估“LLM 作为评判者”系统可靠性的方法，并为此目的设计了一个新的基准。为了推进“LLM 作为评判者”系统的开发和实际部署，我们还讨论了实际应用、挑战和未来方向。本综述为这一快速发展领域的科研人员和实践者提供了基础性参考。

发布时间: 11/26/2024

查看原文

基于深度学习的太赫兹信道估计和波束成形预测——利用Sub-6GHz信道

作者: Sagnik Bhattacharya, Abhishek K. Gupta

高效的信道估计对于帮助太赫兹通信系统发挥其全部潜力至关重要。传统的链路信道估计方法，例如最小二乘估计，由于其巨大的计算开销，在太赫兹系统中实际上效率低下。本文提出了一种基于高效卷积神经网络（CNN）的太赫兹信道估计器，该估计器利用上行链路亚6GHz信道来估计太赫兹信道参数。此外，我们使用估计的太赫兹信道参数，利用密集神经网络从预先给定的码本中预测最佳波束成形器。我们不仅摆脱了传统方法相关的开销，而且使用提出的波束成形器预测器实现了接近最优的频谱效率。所提出的方法也优于接受太赫兹信道矩阵作为输入的基于深度学习的波束成形器预测器，从而证明了我们基于亚6GHz方法的有效性和效率。

发布时间: 11/26/2024

查看原文

LAGUNA：基于结构化空间的语言引导式无监督自适应

作者: Anxhelo Diko, Antonino Furnari, Luigi Cinque, Giovanni Maria Farinella

无监督领域自适应仍然是实现模型跨未知领域知识迁移的关键挑战。现有的方法难以平衡对领域不变表示的需求和保留领域特定特征的需求，这通常是由于对齐方法在潜在空间中强加了语义相似的样本的投影靠近，尽管它们存在巨大的领域差异。我们引入了\mnamelong，这是一种新方法，它将重点从对齐绝对坐标中的表示转移到对齐潜在空间中等效概念的相对位置。\mname在语言空间中定义了关于类别标签之间语义/几何关系的领域无关结构，并指导自适应过程，确保视觉空间中样本的组织反映参考类间关系，同时保留领域特定特征。我们在四个不同的图像和视频数据集上实证证明了\mname在领域自适应任务中的优越性。值得注意的是，\mname在四个不同的图像和视频数据集的18个不同的自适应场景中超越了以前的工作，在DomainNet上的平均准确率提高了+3.32%，在GeoPlaces上提高了+5.75%，在GeoImnet上提高了+4.77%，在EgoExo4D上平均类别准确率提高了+1.94%。

发布时间: 11/26/2024

查看原文

ReWind：基于指令学习的记忆机制理解长视频

作者: Anxhelo Diko, Tinghuai Wang, Wassim Swaileh, Shiyan Sun, Ioannis Patras

视觉语言模型 (VLMs) 对于需要整合文本和视觉信息理解的应用至关重要。然而，现有的 VLMs 由于计算效率低、内存限制以及难以在较长序列中保持一致的理解，难以处理长视频。为了解决这些挑战，我们引入了 ReWind，这是一种新颖的基于内存的 VLM，旨在高效地理解长视频，同时保持时间保真度。ReWind 采用两阶段框架。在第一阶段，ReWind 使用一种新颖的**读-感知-写**循环维护一个动态可学习的内存模块，该模块在视频展开时存储和更新与指令相关的视觉信息。该模块利用可学习的查询以及内存内容和输入流之间的交叉注意力，通过线性扩展令牌数量来确保低内存需求。在第二阶段，我们提出了一种由内存内容引导的自适应帧选择机制，以识别与指令相关的关键时刻。它通过选择一些高分辨率帧来丰富内存表示中的详细空间信息，然后将这些帧与内存内容结合起来，并输入大型语言模型 (LLM) 以生成最终答案。我们在视觉问答 (VQA) 和时间定位任务中实证地证明了 ReWind 的优越性能，在长视频基准测试中超越了以前的方法。值得注意的是，ReWind 在 MovieChat-1K VQA 数据集上实现了 +13% 的分数增益和 +12% 的精度提高，在 Charades-STA 时间定位任务上实现了 +8% 的 mIoU 提升。

发布时间: 11/26/2024

查看原文

Wikidata中的类序无序及其初步修正

作者: Peter F. Patel-Schneider, Ege Atacan Do\u{g}an

Wikidata拥有一个包含多级类别的庞大本体。Wikidata本体长期以来被认为存在类别顺序违规以及与类别顺序相关的可疑信息。我们使用SPARQL查询评估Wikidata，以确定几种违规和可疑信息的普遍程度，并分析了结果。我们手动对Wikidata进行了一些更改以消除其中一些结果，并重新运行查询，以显示更改的效果。我们还提供了关于如何解决发现的问题的建议，方法包括改进工具或让Wikidata社区参与其中。

发布时间: 11/26/2024

查看原文