arXiv 论文列表

作者: Fatma Yasmine Loumachi, Mohamed Chahine Ghanem

时间线分析（TA）在数字取证（DF）领域的时间线取证（TF）中起着至关重要的作用。它侧重于检查和分析基于时间点的数字文物，例如从事件日志、文件元数据和其他相关数据中提取的时间戳，以关联与网络事件相关的事件并重建其时间顺序。传统的工具通常难以有效地处理 DF 调查和事件响应 (IR) 过程中产生的海量且种类繁多的数据。本文介绍了一个新颖的框架 GenDFIR，它将基于规则的人工智能 (R-BAI) 算法与大型语言模型 (LLM) 相结合，以增强和自动化 TA 流程。该方法包括两个关键阶段：（1）R-BAI 用于根据预定义规则识别和选择异常数字文物。（2）然后，选定的文物被转换为嵌入，以便在检索增强生成 (RAG) 代理的帮助下由 LLM 处理。LLM 利用其功能对文物进行自动 TA 并预测潜在的事件结果。为了验证该框架，我们评估了其性能、效率和可靠性。将几个指标应用于模拟的网络事件场景，这些场景以取证案例文件的形式呈现。我们的发现表明，将 R-BAI 和 LLM 集成到 TA 中的巨大潜力。这种创新方法强调了生成式 AI (GenAI)，特别是 LLM 的力量，并为先进的威胁检测和事件重建开辟了新的可能性，标志着该领域的一项重大进步。

发布时间: 9/26/2024

查看原文

大型语言模型认知领域基准测试：从台湾客家文化中获得的见解

作者: Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee

本研究提出一个全面的基准，旨在评估大型语言模型（LLMs）在理解和处理文化知识方面的性能，并以客家文化为案例研究。利用布鲁姆分类法，该研究构建了一个多维度框架，系统地评估了LLMs在六个认知领域的表现：记忆、理解、应用、分析、评估和创造。该基准超越了传统的单维度评估，通过更深入地分析LLMs处理文化特定内容的能力，涵盖从基本的事实回忆到更高阶的认知任务，例如创造性综合。此外，该研究还整合了检索增强生成（RAG）技术，以解决LLMs中少数民族文化知识表示的挑战，展示了RAG如何通过动态地整合相关外部信息来增强模型的性能。结果突出了RAG在提高所有认知领域准确性方面的有效性，特别是在需要精确检索和应用文化知识的任务中。然而，研究结果也揭示了RAG在创造性任务中的局限性，强调了进一步优化的必要性。该基准提供了一个强大的工具，用于在文化多元的背景下评估和比较LLMs，为人工智能驱动的文化知识保存和传播的未来研究和发展提供宝贵的见解。

发布时间: 9/26/2024

查看原文

MAPF-GPT：大规模多智能体路径规划的模仿学习

作者: Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik

多智能体路径规划（MAPF）是一个具有挑战性的计算问题，通常需要在共享环境中为多个智能体找到无碰撞路径。尽管求解 MAPF 的最优解是 NP 难问题，但高效的解决方案对于自动化仓库和交通系统等众多应用至关重要。近年来，基于学习的 MAPF 方法备受关注，尤其是那些利用深度强化学习的方法。遵循机器学习的最新趋势，我们为 MAPF 问题创建了一个基础模型，称为 MAPF-GPT。使用模仿学习，我们在预先收集的一组次优专家轨迹上训练了一个策略，该策略可以在部分可观察的情况下生成动作，而无需额外的启发式方法、奖励函数或与其他智能体的通信。产生的 MAPF-GPT 模型在解决训练数据集中不存在的 MAPF 问题实例时，展示了零样本学习能力。我们表明，MAPF-GPT 在各种问题实例上明显优于当前性能最好的可学习 MAPF 求解器，并且在计算效率方面（在推理模式下）很高。

发布时间: 9/26/2024

查看原文

RoboSense：面向多传感器低速自动驾驶的大规模数据集和基准测试

作者: Haisheng Su, Feixiang Song, Cong Ma, Wei Wu, Junchi Yan

在任意视角下进行鲁棒的目标检测和跟踪对于自动驾驶技术的发展来说是一个具有挑战性但又必不可少的课题。随着无人驾驶功能车辆的需求不断增长，近场场景理解成为低速自动驾驶领域的重要研究课题。由于驾驶条件的复杂性和近距离障碍物（如盲区和高遮挡）的多样性，近场环境的感知能力仍然不如其更远处的对应物。为了进一步增强无人驾驶车辆的智能能力，本文构建了一个基于三种主要类型的传感器（摄像头、激光雷达和鱼眼镜头）的多模态数据采集平台，该平台支持灵活的传感器配置，能够为自车提供动态视角，包括全局视角和局部视角。同时，建立了一个名为 RoboSense 的大型多传感器数据集，以促进近场场景理解。RoboSense 包含超过 133K 个同步数据，其中包含 1.4M 个 3D 边界框和 ID，在完整的 $360^{\circ}$ 视角内进行标注，形成跨越 7.6K 个时间序列的 216K 个轨迹。与之前的单车数据集（如 KITTI 和 nuScenes）相比，它在 5 米范围内对近场障碍物的标注数量分别增加了 $270\times$ 和 $18\times$。此外，我们为近场 3D 感知和预测指标定义了一个新的匹配标准。基于 RoboSense，我们制定了 6 个流行的任务来促进未来相关研究的发展，其中也提供了详细的数据分析和基准。代码和数据集将在 https://github.com/suhaisheng/RoboSense 上发布。

发布时间: 9/26/2024

查看原文

SurGen：用于手术视频生成的文本引导扩散模型

作者: Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Dhamanpreet Kaur, Rohan Shad, William Hiesinger

基于扩散的视频生成模型取得了显著进展，产生了具有更高视觉保真度、时间一致性和用户控制的输出。这些进步为改善外科教育提供了巨大希望，使更逼真、多样化和互动式的模拟环境成为可能。在本研究中，我们介绍了 SurGen，一个针对外科视频合成的文本引导扩散模型。SurGen 生成的视频在现有外科视频生成模型中具有最高分辨率和最长时长。我们使用标准图像和视频生成指标验证了输出的视觉和时间质量。此外，我们通过在外科数据上训练的深度学习分类器评估了它们与相应文本提示的匹配程度。我们的结果证明了扩散模型作为外科培训人员宝贵教育工具的潜力。

发布时间: 9/26/2024

查看原文

MegaFake：一个基于理论的由大型语言模型生成的假新闻数据集

作者: Lionel Z. Wang, Yiming Ma, Renfei Gao, Beichen Guo, Han Zhu, Wenqi Fan, Zexin Lu, Ka Chung Ng

大型语言模型 (LLM) 的出现彻底改变了在线内容创作，使得生成高质量的假新闻变得更加容易。这种滥用行为威胁着我们数字环境的完整性和道德标准。因此，了解 LLM 生成假新闻背后的动机和机制至关重要。在本研究中，我们从社会心理学角度分析了假新闻的生成，并开发了一个全面的基于 LLM 的理论框架，即 LLM-Fake 理论。我们引入了一种新颖的管道，该管道使用 LLM 自动生成假新闻，从而消除了对手动标注的需求。利用此管道，我们创建了一个理论化的机器生成假新闻数据集 MegaFake，该数据集源自 GossipCop 数据集。我们进行了全面的分析以评估我们的 MegaFake 数据集。我们相信，我们的数据集和见解将为未来专注于 LLM 时代假新闻检测和治理的研究提供宝贵的贡献。

发布时间: 9/26/2024

查看原文

虚拟现实中大型语言模型在传统苏格兰冰壶运动中的可用性和参与度评估

作者: Ka Hei Carrie Lau, Efe Bozkir, Hong Gao, Enkelejda Kasneci

本文探讨了大型语言模型 (LLMs) 在虚拟现实 (VR) 环境中促进遗产教育的创新应用，重点关注游戏“苏格兰冰壶 VR”中展示的传统苏格兰冰壶。我们的研究比较了基于 LLM 的聊天机器人与预定义脚本聊天机器人的有效性，评估了可用性、用户参与度和学习成果等关键标准。结果表明，基于 LLM 的聊天机器人显着提高了交互性和参与度，创造了更加动态和身临其境的学习环境。这种整合有助于记录和保存文化遗产，并增强传播过程，这对于在环境变化中保护非物质文化遗产 (ICH) 至关重要。此外，该研究强调了新技术在教育中的潜力，可以提供身临其境的体验，培养对文化遗产的更深层次的欣赏。这些发现支持在文化教育中更广泛地应用 LLM 和 VR，以应对全球挑战，促进可持续实践，保护和增强文化遗产。

发布时间: 9/26/2024

查看原文

ArtVLM：基于视觉前缀语言模型的属性识别

作者: William Yicheng Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang

识别和分离物体中的视觉属性是许多计算机视觉应用的基础。虽然 CLIP 等大型视觉语言表示在很大程度上解决了零样本物体识别的任务，但零样本视觉属性识别仍然是一个挑战，因为 CLIP 的对比学习视觉语言表示无法有效地捕捉物体-属性依赖关系。在本文中，我们针对这一弱点，提出了一种基于句子生成检索的属性识别公式，该公式在以下方面具有新颖性：1）将待测量和检索的物体-属性关系显式地建模为条件概率图，将识别问题转化为依赖敏感的语言建模问题；2）将大型预训练视觉语言模型 (VLM) 应用于该重构，并自然地提取其对图像-物体-属性关系的知识，用于属性识别。具体而言，对于要识别图像上的每个属性，我们测量生成一个短句的视觉条件概率，该短句编码了该属性与图像上物体的关系。与对比检索通过全局对齐句子元素和图像来测量可能性不同，生成检索对句子中物体和属性的顺序和依赖关系很敏感。我们通过实验证明，生成检索在两个视觉推理数据集上始终优于对比检索，这两个数据集分别是野外视觉属性 (VAW) 和我们新提出的视觉基因组属性排名 (VGARank)。

发布时间: 9/26/2024

查看原文

基于情感驱动的旋律和声化：通过旋律变奏和功能性表示

作者: Jingyue Huang, Yi-Hsuan Yang

情感驱动的旋律和声化旨在为单一旋律生成不同的和声以传达期望的情感。以往的研究发现，仅通过用不同的和弦对同一旋律进行和声化来改变主旋律的感知情感价很难，这可能是由于旋律本身的约束以及现有音乐表示的局限性造成的。本文提出了一种用于符号音乐的新型功能表示方法。这种新方法考虑了音乐调性，认识到它们通过大小调音阶在塑造音乐情感特征方面的重要作用。它还允许旋律在调性方面发生变化，并解决了数据稀缺问题，以便更好地进行情感建模。使用 Transformer 来对可适应调性的旋律进行和声化，允许以基于规则或基于模型的方式确定调性。实验结果证实了我们的新表示方法在生成感知调性的和声方面的有效性，客观和主观评估证实了我们的方法在为多变的旋律传达特定情感价方面的潜力。

发布时间: 9/26/2024

查看原文

用于编程图神经网络的 $\mu\mathcal{G}$ 语言

作者: Matteo Belenchia, Flavio Corradini, Michela Quadrini, Michele Loreti

图神经网络是一种专门为处理图结构数据而设计的深度学习架构。因此，它们也继承了深度学习固有的局限性和问题，尤其是在可解释性和可信度方面。我们提出了 $\mu\mathcal{G}$，一种用于指定图神经网络的全新领域特定语言，旨在克服这些问题。本文介绍了该语言的语法，并通过语义学对其含义进行了严格定义。同时，我们还提供了等效的运算语义表征，并结合类型系统证明了 $\mu\mathcal{G}$ 的类型安全。我们展示了如何以更友好的图形可视化方式表示 $\mu\mathcal{G}$ 程序，并通过展示如何使用它定义一些最流行的图神经网络模型或开发任何自定义图处理应用程序来证明其通用性。

发布时间: 9/26/2024

查看原文