准确识别和分类自杀事件可以带来更好的自杀预防措施,减少操作负担,并提高高危精神科环境中的护理质量。预训练语言模型为从非结构化临床叙述中识别自杀倾向提供了希望。我们使用两种微调策略(多个单标签和单个多标签)评估了四个基于 BERT 的模型的性能,用于从 500 个带注释的精神科评估笔记中检测共存的自杀事件。这些笔记被标记为自杀意念 (SI)、自杀企图 (SA)、自杀暴露 (ES) 和非自杀性自伤 (NSSI)。RoBERTa 使用多个单标签分类策略(acc=0.86,F1=0.78)优于其他模型。MentalBERT (acc=0.83, F1=0.74) 也超过了 BioClinicalBERT (acc=0.82, F1=0.72),后者优于 BERT (acc=0.80, F1=0.70)。使用单个多标签分类微调的 RoBERTa 进一步提高了模型性能 (acc=0.88, F1=0.81)。这些发现表明,模型优化、使用领域相关数据进行预训练以及单个多标签分类策略可以提高自杀表型模型的性能。
由于人体与物体或人与人之间的交互作用,在严重遮挡的情况下重建人体三维形状是一个极具挑战性的问题。参数化模型(如 SMPL(-X))基于人体形状的统计数据,可以表示完整的人体形状,但仅限于穿着最少的人体形状。基于隐式函数的方法从参数化模型中提取特征,以利用人体先验知识,并能捕捉到服装和头发等几何细节。然而,它们在处理对齐错误的参数化模型以及仅根据单张 RGB 图像修复遮挡区域时往往会遇到困难。
在本工作中,我们提出了一种新颖的管道 MHCDIFF,即多假设条件点云扩散,该管道由条件点云扩散组成,该扩散以像素对齐的详细三维人体重建的概率分布为条件,以解决遮挡问题。与以往基于隐式函数的方法相比,点云扩散模型可以捕捉到全局一致的特征,以生成遮挡区域,并且去噪过程可以纠正对齐错误的 SMPL 网格。MHCDIFF 的核心是提取来自多个假设的 SMPL(-X) 网格的局部特征,并将特征集聚合起来作为扩散模型的条件。
在 CAPE 和 MultiHuman 数据集上的实验表明,该方法在合成和真实遮挡情况下,优于基于 SMPL、隐式函数、点云扩散及其组合的各种 SOTA 方法。我们的代码已公开发布在 https://donghwankim0101.github.io/projects/mhcdiff/。
对于诸如利用人体图形图像诊断自闭症谱系障碍 (ASD) 这样的自动人体图形绘制 (HFD) 评估任务,模型决策的清晰度和可解释性至关重要。现有的基于像素级归因的可解释人工智能 (XAI) 方法需要用户付出相当大的努力来解释图像中某个区域的语义信息,这往往耗时且不切实际。为了克服这一挑战,我们提出了一种基于部件贡献评估的模型解释 (PCEvE) 框架。在部件检测的基础上,我们测量每个单独部件的 Shapley 值,以评估其对模型决策的贡献。与现有的基于归因的 XAI 方法不同,PCEvE 提供了对模型决策的直观解释,即部件贡献直方图。此外,PCEvE 将解释的范围扩展到超越传统的样本级别,包括类别级别和任务级别的见解,从而提供对模型行为更丰富、更全面的理解。我们通过对多个 HFD 评估数据集进行大量实验,严格验证了 PCEvE。此外,我们还通过一组对照实验对所提出的方法进行了健全性检查。此外,我们通过将该方法应用于一个照片逼真的数据集斯坦福汽车数据集,证明了该方法的多功能性和适用性。
大型语言模型 (LLM) 在各种应用中的广泛应用突出了对强大的安全措施的迫切需求,以阻止潜在的越狱攻击。这些攻击利用 LLM 中的漏洞,危及数据完整性和用户隐私。护栏是抵御此类威胁的重要保护机制,但现有模型在检测准确率和计算效率方面往往存在不足。本文主张在 LLM 上预防越狱攻击的重要性,并强调输入护栏在保护这些模型中的作用。我们引入了 MoJE(越狱专家混合),这是一种新颖的护栏架构,旨在克服现有最先进护栏的当前局限性。通过采用简单的语言统计技术,MoJE 擅长检测越狱攻击,同时在模型推理过程中保持最小的计算开销。通过严格的实验,MoJE 表明其具有卓越的性能,能够检测到 90% 的攻击,而不会损害良性提示,从而增强 LLM 抵御越狱攻击的安全性。
参数高效迁移学习(PETL)近年来引起了广泛关注,这是由于预训练模型规模不断扩大,以及为了获得更好的下游性能而需要对它们进行微调 (FT) 的需求。这种社区范围内的热情引发了大量方法。然而,缺乏对它们的性能和适用场景的系统研究,导致了何时应用 PETL 以及使用哪种方法等问题仍然没有得到解答。在本文中,我们对视觉Transformer背景下具有代表性的 PETL 方法进行了统一的实证研究。我们系统地调整了它们的超参数,以公平地比较它们在下游任务上的准确性。我们的研究不仅提供了一个有价值的用户指南,还揭示了一些新的见解。首先,如果仔细调整,不同的 PETL 方法可以在低样本基准 VTAB-1K 中获得相似的准确性。这包括像 FT 偏差项这样被认为效果较差的简单方法。其次,尽管准确性相似,我们发现 PETL 方法会犯不同的错误并做出不同的高置信度预测,这可能是由于它们的归纳偏差不同。这种不一致(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,除了常用的低样本任务之外,我们发现 PETL 在多样本模式下也同样有用——它使用少得多的可学习参数,在许多情况下实现了与全 FT 相当甚至更好的准确性。最后但并非最不重要的是,我们调查了 PETL 保留预训练模型对分布变化(例如,CLIP 主干)的鲁棒性的能力。也许并不令人惊讶,PETL 方法优于单独的全 FT。然而,通过权重空间集成,完全微调的模型可以更好地平衡目标(即下游)分布和分布变化性能,这为 PETL 的未来研究方向提供了启示。
近年来,多模态大型语言模型(MLLMs)取得了进展,旨在整合和解释跨不同模态的数据。然而,这些模型同时处理和推理多种模态的能力仍未得到充分探索,部分原因是缺乏全面的模态基准。我们介绍了 OmniBench,这是一个新颖的基准,旨在严格评估模型同时识别、解释和推理视觉、声学和文本输入的能力。我们将能够进行这种三模态处理的模型定义为全语言模型(OLMs)。OmniBench 的特点是高质量的人工标注,确保准确的响应需要对所有三种模态进行整合理解和推理。我们的主要发现表明:i)大多数 OLMs 在三模态上下文中表现出指令遵循和推理能力方面的严重局限性;ii)大多数基线模型的性能很差(准确率低于 50%),即使提供了图像或/和音频的替代文本表示。这些结果表明,从文本、图像和音频构建一致上下文的的能力在现有的 MLLM 训练范式中常常被忽视。为了解决这一差距,我们为训练 OLMs 以适应多模态上下文,整理了一个包含 84.5 万个训练样本的指令调优数据集 OmniInstruct。我们主张未来的研究应侧重于开发更强大的三模态集成技术和训练策略,以提高 OLM 在不同模态上的性能。代码和实时排行榜可在 https://m-a-p.ai/OmniBench 找到。
面向方面的情感三元组抽取 (ASTE) 是最近提出的基于方面的情感分析任务,它包含从给定句子中提取 (方面短语,观点短语,情感极性) 三元组。最新的方法通过首先从给定文本中提取所有可能的文本跨度,然后使用分类器过滤潜在的方面和观点短语,最后使用另一个分类器考虑所有短语对并为其分配情感极性来解决此任务。尽管已经提出了上述方案的几种变体,但共同特征是最终结果由一系列独立的分类器决策构建而成。这阻碍了对提取短语之间依赖关系的利用,并阻止了使用关于分类器预测之间相互关系的知识来提高性能。在本文中,我们提出了一种新的 ASTE 方法,该方法包含三个受 Transformer 启发的层,这使得能够对短语之间以及最终分类器决策之间的依赖关系进行建模。实验结果表明,该方法在流行基准上比其他方法在 F1 测度方面取得了更高的性能。此外,我们表明,一种简单的预训练技术进一步提高了模型的性能。
当前最先进的住宅灌溉系统,例如 WaterMyYard,依赖于来自附近气象站的降雨数据来调整灌溉量。然而,降雨数据的准确性受到雨量计空间分辨率有限和超局部降雨量变化显著的影响,导致大量水资源浪费。为了提高灌溉效率,我们开发了一种经济高效的灌溉系统,名为 ERIC,它利用机器学习模型从商品门铃摄像头视频中估计降雨量,并在无人干预的情况下优化灌溉时间表。具体而言,我们:a) 设计了具有轻量级神经网络模型的新颖视觉和音频特征,以从边缘的摄像头推断降雨量,保护用户隐私;b) 在 Raspberry Pi 4 上构建了一个完整的端到端灌溉系统,成本仅为 75 美元。我们在五个具有不同背景和光照条件的位置部署了该系统(收集了超过 750 小时的视频)。综合评估证实 ERIC 实现了最先进的降雨量估计性能(~ 5 毫米/天),每月节省 9,112 加仑水,相当于每月节省 28.56 美元的公用事业费用。数据和代码可在 https://github.com/LENSS/ERIC-BuildSys2024.git 获取。
通用网页代理在自主完成真实网站上的各种任务方面展现出非凡的潜力,极大地提高了人类的工作效率。然而,网页任务,例如预订航班,通常涉及用户的个人身份信息(PII),如果网页代理意外与受损网站交互,可能会存在隐私风险,而这种情况在文献中尚未得到充分探讨。在这项工作中,我们通过对通用网页代理在对抗环境中的隐私风险进行首次研究来缩小这一差距。首先,我们针对网站攻击提出了一种现实的威胁模型,其中我们考虑了两个对抗目标:窃取用户的特定 PII 或整个用户请求。然后,我们提出了一种新颖的攻击方法,称为环境注入攻击(EIA)。EIA 注入旨在适应代理运行环境的恶意内容,我们的工作将 EIA 特别用于网页环境中的隐私场景。我们从 Mind2Web 收集了 177 个涉及真实网站上各种 PII 类别的操作步骤,并使用迄今为止最强大的通用网页代理框架之一进行了实验。结果表明,EIA 在窃取特定 PII 方面实现了高达 70% 的攻击成功率,在窃取完整用户请求方面实现了 16% 的攻击成功率。此外,通过访问隐蔽性并使用防御系统提示进行实验,我们表明 EIA 难以检测和缓解。值得注意的是,不适合网页的攻击可以通过人工检查来检测,这导致我们讨论了安全性和自主性之间的权衡。然而,攻击者额外的努力可以使 EIA 无缝适应,从而使这种监督变得无效。因此,我们进一步讨论了网站在部署前和部署后阶段的防御措施,而无需依赖人工监督,并呼吁更先进的防御策略。
本文介绍了一个住宅音频数据集,用于支持智能家居应用中的声音事件检测研究,旨在促进老年人的福祉。该数据集通过在 8 位 55-80 岁的参与者家中部署音频记录系统,持续 7 天来构建。通过详细的平面图和建筑材料信息记录声学特征,以便在 AI 模型部署中复制记录环境。本文开发了一种新颖的自动语音去除管道,利用预先训练的音频神经网络检测和去除包含语音的片段,同时保留包含其他声音事件的片段。由此产生的数据集包含符合隐私的音频记录,准确地捕捉住宅空间内的音景和日常生活活动。本文详细介绍了数据集的创建方法、利用级联模型架构的语音去除管道以及对语音标签分布的分析,以验证语音去除过程。该数据集可以用于开发和基准测试专门针对家庭应用的声音事件检测模型。