arXiv 论文列表

视觉语言模型的视觉能力评估：指导与检查

视觉语言模型（VLMs）在各种基准测试中展示了令人鼓舞的推理能力；然而，我们对它们视觉感知的理解仍然有限。在这项工作中，我们提出了一种眼科检查流程，以研究VLM如何感知图像，特别是关注视觉识别的关键元素，从基本的颜色和形状到语义层面。为此，我们引入了一个名为LENS的数据集，以指导VLM遵循检查流程并检查其准备情况。一旦模型准备就绪，我们进行检查。通过这一检查，我们量化并可视化了VLM对颜色和形状以及语义匹配的敏感性。我们的研究结果表明，VLM对不同颜色的敏感性各异，而在不同VLM中对绿色的敏感性始终较低。此外，我们发现尽管使用相同的固定视觉编码器，但形状敏感性和语义识别因LLM的容量而异。我们的分析和发现有望激发VLM设计和视觉输入预处理的创新，以提高应用性能。

发布时间: 9/24/2024

查看原文

UniBEVFusion：统一雷达-视觉BEV融合用于三维目标检测

4D毫米波雷达（MMW）在3D物体检测中越来越受欢迎，因为它不仅提供了高度信息，还提供了密集的点云数据，超越了传统的3D毫米波雷达。近年来，雷达-视觉融合模型在性能上已经接近基于激光雷达（LiDAR）的模型，同时在硬件成本和极端条件下的适应性方面具有优势。然而，许多雷达-视觉融合模型将雷达视为稀疏的激光雷达，未能充分利用雷达特有的信息。此外，这些多模态网络往往对单一模态的失效非常敏感，尤其是视觉模态。为了应对这些挑战，我们提出了雷达深度提升-分割-射击（RDL）模块，该模块将雷达特有的数据整合到深度预测过程中，从而提升了视觉鸟瞰图（BEV）特征的质量。我们进一步引入了一种统一特征融合（UFF）方法，该方法通过共享模块提取不同模态的BEV特征。为了评估多模态模型的鲁棒性，我们设计了一种新的失效测试（FT）消融实验，通过注入高斯噪声来模拟视觉模态的失效。我们在View-of-Delft（VoD）和TJ4D数据集上进行了广泛的实验。结果表明，我们提出的统一BEV融合（UniBEVFusion）网络在TJ4D数据集上的3D和BEV物体检测准确性方面显著优于现有最先进的模型，分别提升了1.44和1.72。

发布时间: 9/24/2024

查看原文

分布级特征距离：机器遗忘中模型效用与遗忘之间的更优权衡

arXiv:2409.14747v1 公告类型: 交叉摘要: 随着深度学习应用的爆炸性增长，“被遗忘权”在各种人工智能行业中变得越来越重要。例如，在人脸识别系统中，某些个人可能希望从训练模型中移除在训练阶段可能使用过的图像。不幸的是，现代深度神经网络有时会意外泄露个人身份。最近的研究提出了各种机器遗忘算法，使训练模型能够遗忘需要被遗忘的数据。尽管这些方法在遗忘分数方面通常表现良好，但我们发现可能会出现意外的模型效用下降。这种现象，我们称之为相关性崩溃，发生在机器遗忘算法减少了图像特征与真实标签之间有用相关性的时候。为了应对这一挑战，我们提出了分布级特征距离（DLFD），这是一种新颖的方法，能够在有效遗忘实例的同时防止相关性崩溃。我们的方法通过合成数据样本，使得生成的数据分布在特征空间中远离被遗忘样本的分布，从而在一个训练周期内实现有效结果。通过对人脸识别数据集的广泛实验，我们证明了我们的方法显著优于最先进的机器遗忘方法。

发布时间: 9/24/2024

查看原文

简洁却强大：场景识别中的关键区域选择

场景识别，尤其是针对航空和水下图像，常常受到各种类型的降质影响，如模糊或过曝。以往专注于卷积神经网络的工作已被证明能够提取全景语义特征，并在场景识别任务中表现出色。然而，低质量图像仍因不当使用高级语义特征而阻碍模型性能。为应对这些挑战，我们提出了一种自适应选择机制，以识别最重要且鲁棒的高级特征区域。因此，模型可以通过这些区域进行学习以避免干扰。我们在神经网络中实现了一个可学习的掩码，该掩码可以通过为特征矩阵的不同区域分配权重来过滤高级特征。我们还引入了一个正则化项，以进一步增强关键高级特征区域的重要性。与以往方法不同，我们的可学习矩阵额外关注对多个类别重要但可能导致误分类的区域，并设置约束以减少这些区域的影响。这是一个即插即用的架构，可以轻松扩展到其他方法。此外，我们构建了一个水下地质场景分类数据集，以评估我们模型的有效性。广泛的实验结果表明，我们提出的方法在两个数据集上优于最先进的技术，并展现出优越性和鲁棒性。

发布时间: 9/24/2024

查看原文

ToxiCraft：一种生成有害信息的新型合成框架

在不同的自然语言处理任务中，检测有害内容对于在线环境至关重要，尤其是在社交媒体影响力日益增强的背景下。然而，以往的研究存在两个主要问题：1) 在低资源环境下缺乏数据；2) 对有害内容的定义和判断标准不一致，要求分类模型对虚假特征和多样性具有鲁棒性。我们提出了Toxicraft，这是一种新颖的框架，用于合成有害信息数据集，以解决这些弱点。仅使用少量种子数据，我们的框架就能生成各种合成但极其逼真的有害信息示例。在各种数据集上的实验展示了检测模型鲁棒性和适应性的显著提升，性能超越或接近金标准标签。我们将在接受后在Github上发布生成的数据。

发布时间: 9/24/2024

查看原文

PROMPTFUZZ：利用模糊测试技术增强大型语言模型中提示注入的鲁棒性测试

大型语言模型（LLMs）由于其生成类人文本的能力，已在各种应用中得到广泛使用。然而，提示注入攻击通过用恶意提示覆盖模型的原始指令来操纵生成的文本，引发了关于LLMs安全性和可靠性的重大担忧。确保LLMs对这类攻击具有鲁棒性对于其在现实世界应用中的部署至关重要，尤其是在关键任务中。本文提出PROMPTFUZZ，一种利用模糊测试技术系统评估LLMs对提示注入攻击鲁棒性的新型测试框架。受软件模糊测试启发，PROMPTFUZZ选择有前景的种子提示并生成多样化的提示注入，以评估目标LLM的抗攻击能力。PROMPTFUZZ分为两个阶段：准备阶段，涉及选择有前景的初始种子和收集少样本示例；聚焦阶段，利用收集的示例生成多样化、高质量的提示注入。使用PROMPTFUZZ，我们能够发现更多LLMs中的漏洞，即使是那些具有强防御提示的模型。通过在实际竞赛中部署PROMPTFUZZ生成的攻击提示，我们在2小时内从超过4000名参与者中获得第7名（前0.14%）。此外，我们构建了一个数据集，用于微调LLMs以增强对提示注入攻击的鲁棒性。尽管微调模型显示出增强的鲁棒性，PROMPTFUZZ仍能识别漏洞，突显了LLMs鲁棒测试的重要性。我们的工作强调了有效测试工具的关键需求，并提供了一个实用的框架，用于评估和提升LLMs对提示注入攻击的鲁棒性。

发布时间: 9/24/2024

查看原文

EDSNet：用于视频摘要的高效深度时空网络

arXiv:2409.14724v1 公告类型: 交叉摘要: 当前的视频摘要方法主要依赖于基于Transformer的架构，由于其二次复杂性，需要大量的计算资源。在这项工作中，我们通过增强直接到摘要网络（DSNet）与更高效的令牌混合机制来解决这些低效问题。我们展示了用傅里叶变换、小波变换和Nyströmformer等替代方案替换传统注意力机制可以提高效率和性能。此外，我们探索了区域提议网络中的各种池化策略，包括ROI池化、快速傅里叶变换池化和扁平池化。我们在TVSum和SumMe数据集上的实验结果表明，这些修改显著降低了计算成本，同时保持了竞争性的摘要性能。因此，我们的工作为视频摘要任务提供了一个更具扩展性的解决方案。

发布时间: 9/24/2024

查看原文

ERABAL：通过边界感知学习增强角色扮演代理

arXiv:2409.14710v1 公告类型: 交叉摘要: 角色扮演是人类-计算机交互(HCI)领域的一个新兴应用，主要通过大型语言模型(LLM)与分配角色的对齐训练来实现。尽管取得了显著进展，角色扮演代理(RPLAs)在保持对话中的角色一致性方面仍面临挑战，尤其是在面对与角色属性微妙相关的边界查询时。本文提出了ERABAL框架，旨在通过边界感知学习提升RPLAs的角色扮演能力。ERABAL包含一个角色特定对话的生成管道和一个相应的对齐训练方法。通过全面的评估，我们证明了ERABAL在效率和效果上的优越性。通过使用比领先方法少得多的对话进行训练，ERABAL在WikiRoleEval、CharacterEval和MT-Bench的角色扮演子集上相较于通用基线模型取得了显著的改进。我们的代码和数据集将公开发布，以支持进一步的研究。

发布时间: 9/24/2024

查看原文

目标感知语言建模通过细粒度数据采样

arXiv:2409.14705v1 公告类型: 交叉摘要: 语言模型预训练通常面向广泛的应用场景，并整合来自多种来源的数据。然而，在某些情况下，我们希望模型在特定领域表现出色，同时不会显著影响在其他领域的表现。一种经济高效且直接的方法是利用低维数据特征进行采样，从而为特定领域的应用场景选择大规模预训练数据。在这项工作中，我们重新审视了基于n-gram特征的重要性采样方法，这些特征由多粒度令牌组成，能够在句子压缩和表示能力之间取得良好平衡。我们观察到，采样数据与目标下游任务性能高度相关，同时在其他任务上保持有效性。这引出了一个数据采样范式，其中语言模型可以在选定的文档上更高效地进行预训练。在八个基准测试中，我们展示了使用约1%的数据，预训练模型在性能上与完整的RefinedWeb数据相当，并且在125M到1.5B的模型规模范围内优于随机选择的样本。

发布时间: 9/24/2024

查看原文

VLEU：一种用于评估文本到图像模型泛化能力的自动评估方法

arXiv:2409.14704v1 公告类型: 交叉摘要: 文本到图像 (T2I) 模型的进展显著提升了从文本描述生成图像的能力。然而,现有的评估指标未能充分评估模型处理多样化文本提示的能力,这对模型的泛化性至关重要。为此,我们引入了一种名为视觉语言评估替补 (VLEU) 的新指标。VLEU 利用大型语言模型从视觉文本领域采样,即 T2I 模型的所有可能输入文本集合,以生成广泛的提示。根据这些提示生成的图像使用 CLIP 模型评估其与输入文本的对齐程度。VLEU 通过计算视觉文本的边缘分布与模型生成图像的条件分布之间的 Kullback-Leibler 散度来量化模型的泛化性。该指标提供了一种定量方法来比较不同的 T2I 模型,并在模型微调过程中跟踪改进。我们的实验证明了 VLEU 在评估各种 T2I 模型的泛化能力方面的有效性,使其成为未来文本到图像合成研究中的关键指标。

发布时间: 9/24/2024

查看原文