arXiv 论文列表

难以分类动作的可解释性动作识别

我们研究了一种类人可解释的视频理解模型。人类通过识别视频中显式识别的对象和部分之间的关键时空关系来识别复杂的活动，例如，一个物体进入容器的开口。为了模仿这一点，我们基于一个使用对象和手的位置及其运动来识别正在进行的活动的模型进行构建。为了改进这个模型，我们专注于三个最令人困惑的类别（对于该模型），并确定缺乏3D信息是主要问题。为了解决这个问题，我们通过两种方式扩展了我们的基本模型，增加了3D感知：（1）对最先进的对象检测模型进行了微调，以确定“容器”和“非容器”之间的差异，以便将对象形状信息整合到现有的对象特征中。（2）使用最先进的深度估计模型来提取单个对象的深度值，并计算深度关系，以扩展我们可解释模型中使用的现有关系。这些3D扩展在我们的基本模型上进行了评估，评估对象是Something-Something-v2数据集中三个表面上相似的“放置”动作的子集。结果显示，容器检测器并没有提高性能，但深度关系的增加显著提高了性能。

发布时间: 9/23/2024

查看原文

FedAT：分布式内部威胁检测的联邦对抗训练

arXiv:2409.13083v1 公告类型: 交叉摘要: 内部威胁通常发生在工作场所内部，攻击者是与组织密切相关的实体。实体对具有访问权限的资源采取的一系列行动使我们能够识别内部人员。近年来，基于机器学习（ML）的内部威胁检测（ITD）方法引起了广泛关注。然而，大多数技术采用集中式ML方法来执行此类ITD。从多个地点运营的组织无法为集中式模型做出贡献，因为数据来自不同地点。特别是，用户行为数据，作为ITD的主要来源，由于隐私问题无法在各地点之间共享。此外，分布在不同地点的数据由于攻击的稀有性导致极端的类别不平衡。联邦学习（FL）作为一种分布式数据建模范式，最近引起了极大的兴趣。然而，FL支持的ITD尚未得到充分探索，其实际实施中的重要问题仍需研究。因此，我们的工作研究了一种FL支持的多类ITD范式，该范式考虑了非独立同分布（non-IID）数据分布，以检测来自组织不同地点（客户端）的内部威胁。具体而言，我们提出了一种基于生成模型的联邦对抗训练（FedAT）方法，以缓解客户端之间non-IID数据分布引起的极端数据偏斜。此外，我们提出利用基于自归一化神经网络的多层感知器（SNN-MLP）模型来改进ITD。我们进行了全面的实验，并将结果与基准进行比较，以展示所提出的FedAT驱动的ITD方案的增强性能。

发布时间: 9/23/2024

查看原文

AutoVerus：Rust代码的自动化证明生成

生成式人工智能在许多软件工程任务中展现了其价值。尽管仍处于起步阶段，基于大型语言模型（LLM）的证明生成在效率上仍落后于基于LLM的代码生成。本文介绍了AutoVerus，它利用LLM自动生成Rust代码的正确性证明。AutoVerus的设计旨在匹配Verus的独特特性，Verus是一种验证工具，能够使用Rust编写的证明和规范来验证Rust代码的正确性。AutoVerus由一组精心设计和协调的LLM代理组成，这些代理模拟了人类专家在证明构建过程中的三个阶段：初步证明生成、基于通用提示的证明优化以及基于验证错误的证明调试。为了全面评估AutoVerus并促进该领域的未来研究，我们构建了一个包含150个非平凡证明任务的基准套件，这些任务基于现有的代码生成基准和验证基准。我们的评估结果显示，AutoVerus能够自动生成超过90%任务的正确证明，其中超过一半的任务在不到30秒或3次LLM调用内完成。

发布时间: 9/23/2024

查看原文

前线恐惧与迷惘：解读俄乌战争博主的排外语言

arXiv:2409.13064v1 公告类型: 交叉摘要: 他者化，即将外群体描绘成与内群体根本不同的行为，往往升级为将他们视为生存威胁的框架——加剧群体间冲突并合理化排斥和暴力。这些动态现象令人震惊地普遍存在，从德国和卢旺达对少数族裔的极端历史种族灭绝例子，到美国和欧洲针对移民的持续暴力和言论。尽管现有文献中探讨了仇恨言论和恐惧言论等概念，但它们仅捕捉到这一更广泛且更复杂动态的一部分，这些动态往往更难检测，尤其是在在线言论和宣传中。为了应对这一挑战，我们引入了一种新颖的计算框架，该框架利用大型语言模型（LLMs）在不同背景下量化他者化，超越了传统敌意语言指标。将该模型应用于来自Telegram战争博主和Gab政治讨论的真实世界数据，揭示了冲突期间他者化如何升级，与道德语言互动，并获得显著关注，特别是在危机时期。我们的框架旨在提供对他者化动态的更深入洞察，结合快速适应过程，为减轻他者化对社会凝聚力的不利影响提供了关键工具。

发布时间: 9/23/2024

查看原文

现代工业中人工智能应用的综合概述

arXiv:2409.13059v1 公告类型: 交叉摘要: 人工智能(AI)正在从根本上重塑各个行业，通过增强决策过程、优化运营和解锁创新新机遇。本文探讨了AI在四个关键领域的应用: 医疗保健、金融、制造业和零售业。每个部分都深入探讨了这些行业面临的特定挑战、用于解决这些挑战的AI技术以及对业务成果和社会福利的可衡量影响。我们还讨论了AI整合的含义，包括伦理考虑、AI发展的未来轨迹及其在推动经济增长的同时带来的需要负责任管理的挑战。

发布时间: 9/23/2024

查看原文

大型语言模型手术：在大型语言模型中实现高效的知识遗忘与编辑

大型语言模型（LLMs）在多个领域引发了革命性变革，但其效用伴随着预训练过程中嵌入的过时或问题知识所带来的重大挑战。本文针对修改LLMs以遗忘问题和过时信息，同时高效整合新知识而不需从头再训练的挑战。在此，我们提出LLM手术框架，通过优化一个包含三个组件的目标函数来高效修改LLM行为：（1）对遗忘数据集（问题和过时信息）执行反向梯度；（2）对更新数据集（新信息）执行梯度下降；（3）最小化保留数据集（未变文本的小子集）上的KL散度，确保预训练模型与修改后模型输出的一致性。由于缺乏专门针对我们新任务的公开数据集，我们编译了一个新数据集和一个评估基准。使用Llama2-7B，我们展示了LLM手术能够在遗忘集上实现显著遗忘，更新集上准确率提升20%，并保持保留集上的性能。

发布时间: 9/23/2024

查看原文

iCost：一种基于实例复杂度的新型成本敏感学习框架，用于不平衡分类

数据中的类别不平衡对分类任务提出了重大挑战。这种情况相当常见，需要谨慎处理以获得理想的性能。传统的分类算法往往偏向多数类。缓解这种情况的一种方法是使分类器具有成本敏感性。这是通过为少数类实例分配更高的误分类成本来实现的。这种实现的一个问题是，所有少数类实例都被同等对待，并分配相同的惩罚值。然而，所有实例的学习难度并不相同。位于决策边界附近的实例更难分类，而那些远离边界的实例则更容易分类。如果不考虑实例复杂性，简单地对所有少数类样本进行均匀加权，会导致不必要的偏差，从而导致多数类实例的误分类数量增加。这是不可取的，为了克服这种情况，我们在本研究中提出了一种基于实例复杂性的成本敏感方法。我们首先根据难度级别对所有少数类实例进行分类，然后相应地对实例进行惩罚。这确保了更公平的实例加权，并防止过度惩罚。所提出的方法在66个不平衡数据集上与传统的成本敏感学习框架进行了测试，性能显著提高，证明了我们方法的有效性。

发布时间: 9/23/2024

查看原文

大型医疗模型简介：基于患者事件序列训练的Transformer在医疗成本和风险预测中的最新应用

arXiv:2409.13000v1 公告类型: 交叉摘要: 随着美国医疗支出接近5万亿美元（NHE简报2024），其中估计有25%被浪费（美国医疗系统中的浪费：估计成本和潜在节省，n.d.），更好地预测风险和优化患者护理的需求变得尤为重要。本文介绍了大型医疗模型（LMM），这是一个生成式预训练变压器（GPT），旨在指导和预测患者护理和医疗管理的广泛方面。该模型基于超过1.4亿份纵向患者索赔记录中的医疗事件序列进行训练，并使用从医学术语系统构建的专用词汇，展示了卓越的预测医疗成本和识别潜在风险因素的能力。通过实验和验证，我们展示了LMM不仅在成本和风险预测方面的熟练程度，还能在复杂的医疗条件下识别复杂模式，并具备识别患者护理中新型关系的能力。LMM在成本预测方面比最佳商业模型提高了14.1%，在预测一系列慢性疾病方面比最佳变压器模型提高了1.9%。LMM是医疗分析领域的一项重大进步，有望显著提升风险评估、成本管理和个性化医疗。

发布时间: 9/23/2024

查看原文

VCAT：基于漏洞感知和好奇心驱动的对抗训练，提升自动驾驶车辆的鲁棒性

arXiv:2409.12997v1 公告类型: 交叉摘要: 自动驾驶车辆(AVs)在复杂的交通环境中面临严重的安全威胁。对抗训练已成为一种有效的方法，使AVs能够预先加强其对恶意攻击的鲁棒性。通过使用对抗策略训练攻击者，使AV通过与该攻击者的互动学习稳健驾驶。然而，现有方法中的对抗策略往往陷入过度利用已知漏洞的循环，导致AVs的改进效果不佳。为了克服这些限制，我们引入了一种开创性的框架，称为漏洞感知和好奇心驱动的对抗训练(VCAT)。具体来说，在交通车辆攻击者训练阶段，使用代理网络来拟合AV受害者的价值函数，提供关于受害者固有漏洞的密集信息。随后，使用随机网络蒸馏来表征环境的新颖性，构建内在奖励以指导攻击者探索未探索的领域。在受害者防御训练阶段，AV在关键场景中进行训练，其中预训练的攻击者被定位在受害者周围以生成攻击行为。实验结果表明，VCAT提供的训练方法显著提高了基于学习的AVs的鲁棒控制能力，优于传统的训练模式和替代的强化学习对手，显著降低了碰撞率。代码可在https://github.com/caixxuan/VCAT获取。

发布时间: 9/23/2024

查看原文

pyrtklib：一种用于城市峡谷定位的深度学习与GNSS紧耦合集成的开源包

arXiv:2409.12996v1 公告类型: 交叉摘要: 人工智能（AI）正在革新众多领域，通过深度学习在智能交通系统（ITS）中的全球导航卫星系统（GNSS）定位算法中得到越来越多的应用。然而，传统GNSS算法通常使用Fortran或C语言开发，这与深度学习工具中普遍使用的Python实现存在显著的技术差异。为了解决这一差异，本文介绍了pyrtklib，这是一个为广泛使用的开源GNSS工具RTKLIB提供的Python绑定。该绑定使得所有RTKLIB功能在Python中均可访问，从而实现无缝集成。此外，我们在pyrtklib下提出了一个深度学习子系统，这是一个新颖的深度学习框架，利用pyrtklib在GNSS定位过程中准确预测权重和偏置。pyrtklib的使用使得开发者能够轻松快速地原型化和实现深度学习辅助的GNSS算法，展示了其显著提升定位精度的潜力。

发布时间: 9/23/2024

查看原文