arXiv:2402.04870v2 公告类型: 替换 摘要: 克利福德代数是实数、复数和四元数的自然推广。迄今为止,在知识图谱嵌入的背景下,仅研究了形式为 $Cl_{p,q}$ 的克利福德代数(即不含幂零基向量的代数)。我们提出考虑幂零指数为二的幂零基向量。在这些空间中,记为 $Cl_{p,q,r}$,允许对基于对偶数的方法进行推广(这些方法无法使用 $Cl_{p,q}$ 建模),并捕捉实体嵌入中实部和复部之间缺乏高阶交互的模式。我们设计了两种新模型来发现参数 $p$、$q$ 和 $r$。第一个模型使用贪心搜索来优化 $p$、$q$ 和 $r$。第二个模型基于使用神经网络计算的输入知识图谱嵌入来预测 $(p, q, r)$。我们在七个基准数据集上的评估结果表明,幂零向量有助于更好地捕捉嵌入。与现有技术的比较表明,我们的方法在所有数据集上相对于验证数据上的 MRR 表现更优。我们还展示了贪心搜索足以发现接近最优的 $p$、$q$ 和 $r$ 值。
arXiv:2409.13688v1 公告类型: 交叉 摘要: 塑料污染已成为一个日益严重的全球性问题,影响着健康和环境系统,微塑料和纳米塑料在从饮用水到空气的各种介质中被发现。传统的研究这些污染物的方法既费力又耗时,迫切需要转向更高效的技术。为此,本文引入了微塑料和纳米塑料(MiNa),这是一个新颖且开源的数据集,旨在利用目标检测算法实现微塑料和纳米塑料的自动检测和分类。该数据集包含在真实水生条件下模拟的扫描电子显微镜图像,根据聚合物类型对塑料进行广泛尺寸范围的分类。我们展示了最先进的检测算法在MiNa上的应用,评估了它们的效果,并识别了每种方法的独特挑战和潜力。该数据集不仅填补了微塑料研究中可用资源的重大空白,还为该领域的未来发展提供了坚实的基础。
arXiv:2409.13686v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 正在日益影响人类社会,尤其是在文本信息方面。基于来自机器学习会议的超过 30,000 篇论文和 1,000 场演讲,我们研究并比较了写作和演讲中使用的词汇,这代表了首次大规模调查研究 LLMs 如何影响同一群体中口头交流和表达的两种主要模式。我们的实证结果显示,诸如 "significant" 等 LLM 风格的词汇在摘要和口头演讲中使用频率更高。对演讲的影响开始显现,并可能在将来进一步扩大,这引起了人们对 LLMs 对人类社会隐性影响和涟漪效应的关注。
arXiv:2409.13684v1 公告类型: 交叉 摘要: 基于特征的方法常用于解释模型预测,但这些方法通常隐含地假设可解释的特征是现成的。然而,对于高维数据,这往往并非如此,即使是领域专家也难以数学上明确哪些特征是重要的。我们能否自动提取与专家知识相一致的特征集合或特征组?为了填补这一空白,我们提出了FIX(面向专家的可解释特征),一个用于衡量特征集合与专家知识对齐程度的基准。在与领域专家的合作中,我们开发了跨多种现实场景的特征可解释性目标,并将它们统一到一个单一的框架中,即FIX基准。我们发现,流行的基于特征的解释方法与专家指定的知识对齐度较差,这突显了开发能够更好地识别专家可解释特征的新方法的必要性。
大型语言模型(LLMs)已经在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...
arXiv:2409.13676v1 公告类型: 交叉 摘要: 通过对比学习训练的音频-文本模型提供了一种实用的方法,通过自然语言提示进行音频分类,例如“这是一个声音”后跟类别名称。在这项工作中,我们探索了用于零样本音频分类的替代提示模板,证明了存在更高性能的选项。首先,我们发现提示的格式显著影响性能,因此只需使用适当格式化的类别标签提示模型,就能与优化的提示模板甚至提示集成相媲美。此外,我们研究了通过音频中心描述来补充类别标签。通过利用大型语言模型,我们生成了优先考虑声音事件声学特征的文本描述,以在无需广泛提示工程的情况下区分类别。我们展示了使用类别描述提示在主要环境声音数据集上实现了零样本音频分类的最新结果。值得注意的是,这种方法无需额外训练,完全保持零样本特性。
arXiv:2409.13652v1 公告类型: 交叉 摘要: 近期向大规模基础模型的范式转变为深度学习带来了新时代,尽管在实践中取得了巨大成功,但也伴随着高内存消耗和计算成本的昂贵代价。为了缓解这些问题,人们集中精力研究无需昂贵再训练的后处理神经网络剪枝技术。尽管取得了显著进展,现有方法在压缩增加时往往表现出模型性能的稳步下降。在本文中,我们提出了一种新颖的大规模变压器压缩方法,称为OATS,该方法利用输入嵌入中的二阶矩信息将模型权重分解为稀疏和低秩矩阵的和。在不进行任何再训练的情况下,OATS在压缩Llama-3和Phi-3等大型语言模型以及ViT和DINOv2等视觉变压器时,实现了高达60%的压缩率,同时与同等剪枝的模型相比,CPU加速提高了1.37倍,达到了最先进的性能。
事件因果关系识别(ECI)专注于从文本中提取事件之间的因果关系。现有的ECI方法主要依赖于因果特征和外部知识。然而,这些方法在两个方面存在不足:(1)文本中事件之间的因果特征往往缺乏明确的线索;(2)外部知识可能引入偏见,而特定问题需要定制化的分析。为了解决这些问题,我们提出了SemDI——一种简单而有效的语义依赖查询网络,用于ECI。SemDI通过统一的编码器捕捉上下文中的语义依赖关系。然后,它利用填空分析器根据全面的上下文理解生成填空标记。最后,该填空标记用于查询两个事件之间的因果关系。大量实验证明了SemDI的有效性,在三个广泛使用的基准测试中超越了最先进的方法。代码可在https://github.com/hrlics/SemDI获取。
引用表达理解(REC)旨在通过自然语言定位局部视觉区域,是一项严重依赖多模态对齐的任务。大多数现有方法利用强大的预训练模型通过完全微调来转移视觉/语言知识。然而,完全微调整个骨干网络不仅打破了预训练中嵌入的丰富先验知识,还带来了显著的计算成本。受参数高效迁移学习(PETL)方法近期出现的启发,我们旨在以有效且高效的方式解决REC任务。直接将这些PETL方法应用于REC任务是不合适的,因为它们缺乏针对精确局部视觉感知和视觉-语言对齐的特定领域能力。因此,我们提出了一种新的多模态先验引导参数高效调优框架,即MaPPER。具体而言,MaPPER包括由对齐先验引导的动态先验适配器和用于提取精确局部语义以增强视觉感知的局部卷积适配器。此外,提出了先验引导的文本模块,以进一步利用先验知识促进跨模态对齐。在三个广泛使用的基准测试上的实验结果表明,MaPPER在仅调整1.41%的可调骨干参数的情况下,相比完全微调和其它PETL方法,实现了最佳的准确性。
异常检测(AD)在多媒体应用中起着关键作用,用于检测缺陷产品并实现质量自动检测。深度学习(DL)模型通常需要大规模的标注数据,而这些数据往往高度不平衡,因为异常情况通常很少见。这些模型的黑箱特性使得用户难以信任它们。为了应对这些挑战,我们提出了MeLIAD,一种新颖的可解释异常检测方法,该方法基于度量学习,通过设计实现可解释性,而不依赖于任何真实异常的先验分布假设。MeLIAD仅需要少量异常样本进行训练,无需采用任何数据增强技术,并且天生具有可解释性,提供可视化结果,揭示图像被识别为异常的原因。这是通过引入一种新颖的可训练基于熵的评分组件来实现异常实例的识别和定位,以及一种新的损失函数,该函数联合优化异常评分组件与度量学习目标。在五个公开基准数据集上的实验,包括定量和定性的可解释性评估,表明MeLIAD在异常检测和定位性能上优于最先进的方法。