arXiv 论文列表

作者: Houlun Chen, Xin Wang, Hong Chen, Zeyang Zhang, Wei Feng, Bin Huang, Jia Jia, Wenwu Zhu

现有的视频语料库时刻检索 (VCMR) 仅限于粗粒度理解，这阻碍了在给定细粒度查询时进行精确的视频时刻定位。在本文中，我们提出了一个更具挑战性的细粒度 VCMR 基准，要求方法从语料库中定位与其他部分匹配的候选者最佳匹配的时刻。为了提高数据集构建效率并保证高质量的数据标注，我们提出了 VERIFIED，一个自动视频文本标注管道，用于生成具有可靠细粒度统计数据和动态数据的标题。具体来说，我们利用我们提出的统计数据和动态增强字幕模块，借助大型语言模型 (LLM) 和大型多模态模型 (LMM) 为每个视频生成多样化的细粒度字幕。为了滤除由 LLM 幻觉引起的不准确标注，我们提出了一个细粒度感知噪声评估器，其中我们使用受干扰的硬负样本增强对比和匹配损失来微调视频基础模型。使用 VERIFIED，我们构建了一个更具挑战性的细粒度 VCMR 基准，其中包含 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG，它们展示了高水平的标注质量。我们在提出的数据集上评估了几个最先进的 VCMR 模型，结果表明 VCMR 中的细粒度视频理解仍有很大的提升空间。代码和数据集位于 \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}。

发布时间: 10/14/2024

查看原文

VIBES -- 视觉骨干网络高效选择

作者: Joris Guerin, Shray Bansal, Amirreza Shaban, Paulo Mann, Harshvardhan Gazula

本研究着眼于高效选择特定目标任务的高性能预训练视觉主干网络的挑战。尽管在有限的主干网络集合中进行穷举搜索可以解决这个问题，但对于大型数据集和主干网络池而言，这种方法变得不切实际。为了解决这个问题，我们引入了视觉主干网络高效选择（VIBES），旨在快速找到合适的网络主干，并可能在效率方面牺牲最优性。我们提出了一些简单但有效的启发式方法来解决 VIBES，并在四个不同的计算机视觉数据集上对其进行了评估。我们的结果表明，这些方法可以识别出比从通用基准测试中选择的主干网络性能更优异的网络主干，即使在单个 GPU 上的有限搜索预算（一小时）内也是如此。我们认为 VIBES 标志着从基准测试到特定任务优化的范式转变。

发布时间: 10/14/2024

查看原文

LLaMA3 的 ViT3D 对齐：3D 医学图像报告生成

作者: Siyou Li, Beining Xu, Yihao Luo, Dong Nie, Le Zhang

自动医疗报告生成 (MRG) 旨在从医疗图像中生成详细的文本报告，已成为该领域的一项关键任务。MRG 系统可以通过减少报告撰写所需的时间和精力来增强放射学工作流程，从而提高诊断效率。在本研究中，我们提出了一种利用多模态大型语言模型进行自动 MRG 的新方法。具体而言，我们采用了来自 M3D-CLIP 的 3D Vision Transformer (ViT3D) 图像编码器来处理 3D 扫描，并使用 Asclepius-Llama3-8B 作为语言模型，通过自回归解码生成文本报告。实验表明，我们的模型在 MRG 任务验证集上获得了 0.3 的平均 Green 分数，在视觉问答 (VQA) 任务验证集上获得了 0.61 的平均准确率，优于基线模型。我们的方法通过在小型数据集上微调模型，证明了 ViT3D 与 LLaMA3 对齐在自动 MRG 和 VQA 任务中的有效性。

发布时间: 10/14/2024

查看原文

ZipVL：基于动态令牌稀疏化和 KV 缓存压缩的高效大型视觉语言模型

作者: Yefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

大型视觉语言模型 (LVLMs) 的效率受到预填充阶段注意力机制的计算瓶颈以及解码阶段获取键值 (KV) 缓存的内存瓶颈的限制，尤其是在涉及高分辨率图像或视频的场景中。视觉内容通常表现出大量的冗余，导致 LVLMs 中的注意力图高度稀疏。这种稀疏性可以被利用来通过各种方法加速注意力计算或压缩 KV 缓存。然而，大多数研究只专注于解决这些瓶颈中的一个，并且没有充分支持针对不同层或任务的稀疏性的动态调整。在本文中，我们提出了 ZipVL，一个为 LVLMs 设计的高效推理框架，通过重要的标记的动态比率分配策略来解决计算和内存瓶颈。该比率是根据特定层的注意力分数分布自适应地确定的，而不是固定的超参数，从而提高了不太复杂的任务的效率，同时保持了更具挑战性的任务的高性能。然后我们根据其归一化注意力分数选择重要的标记，并在这些重要的标记上执行注意力机制，以加速预填充阶段。为了缓解解码阶段的内存瓶颈，我们对 KV 缓存采用了混合精度量化，其中对重要标记的缓存使用高位量化，而对不太重要的标记使用低位量化。我们的实验表明，ZipVL 可以将预填充阶段加速 2.6 倍，并将 GPU 内存使用量减少 50.0%，在 Video-MME 基准测试中，与 LongVA-7B 模型相比，精度仅降低了 0.2%，有效地提高了 LVLMs 的生成效率。

发布时间: 10/14/2024

查看原文

基于意图增强的序列推荐数据增强方法

作者: Shuai Chen, Zhoujun Li

针对意图增强型序列推荐算法的研究，重点在于如何基于用户行为数据更好地挖掘动态用户意图，以服务于序列推荐任务。现有的序列推荐算法广泛应用了各种数据增强方法，有效地提升了捕捉用户意图的能力。然而，这些广泛使用的数据增强方法通常依赖大量的随机采样，这会导致训练数据中出现过多的噪声，模糊用户意图，从而对推荐性能产生负面影响。此外，这些方法在利用增强数据方面手段有限，未能充分利用增强样本。我们提出了一种针对序列推荐的意图增强型数据增强方法（**IESRec**），该方法通过意图片段插入的方式，根据用户行为序列构建正负样本。一方面，生成的正样本与原始训练数据混合在一起，并共同进行训练以提高推荐性能。另一方面，生成的正负样本被用来构建对比损失函数，通过自监督训练来增强推荐性能。最后，主要推荐任务与对比学习损失最小化任务联合训练。在三个真实世界数据集上的实验验证了我们 IESRec 模型的有效性。

发布时间: 10/14/2024

查看原文

人工智能在翻译修订中提供增强型反馈的整合：学生参与的混合方法研究

作者: Simin Xu, Yanfang Su, Kanglong Liu

尽管反馈在教育中具有公认的重要性，但人工智能（AI）生成的反馈，特别是来自 ChatGPT 等语言模型的反馈，在翻译教育中的应用仍未得到充分研究。本研究调查了翻译硕士生在修订过程中对 ChatGPT 生成的反馈的参与程度。采用了一种混合方法，将翻译和修订实验与定量和定性分析相结合，以检验反馈、修订前后的翻译、修订过程以及学生的反思。结果揭示了影响学生对 AI 反馈的参与度及其后续修订的认知、情感和行为维度之间的复杂相互关系。具体而言，研究结果表明，尽管学生发现反馈易于理解，但他们在修订过程中投入了大量的认知努力。此外，他们对反馈模型表现出中等程度的情感满意度。在行为上，他们的行为在很大程度上受认知和情感因素的影响，尽管观察到一些不一致。这项研究为 AI 生成的反馈在翻译教学中的潜在应用提供了新颖的见解，并为进一步研究 AI 工具在语言教学环境中的整合开辟了道路。

发布时间: 10/14/2024

查看原文

基于联合嵌入预测架构学习 12 导联心电图的通用表示

作者: Sehun Kim

我们提出了一种名为 ECG 联合嵌入预测架构 (ECG-JEPA) 的 12 导联心电图 (ECG) 分析的自监督学习方法。ECG-JEPA 采用掩码策略来学习 ECG 数据的语义表示。与现有方法不同，ECG-JEPA 在隐藏表示层进行预测，而不是重建原始数据。这种方法在 ECG 领域提供了几个优势：(1) 它避免了产生不必要的细节，例如标准 ECG 中常见的噪声；(2) 它解决了原始信号之间朴素 L2 损失的局限性。另一个关键贡献是引入了专为 12 导联 ECG 数据量身定制的掩码注意力，即交叉模式注意力 (CroPA)。CroPA 使模型能够有效地捕获跨补丁关系。此外，ECG-JEPA 可高度扩展，允许在大型数据集上进行高效训练。我们的代码已公开发布 https://github.com/sehunfromdaegu/ECG_JEPA。

发布时间: 10/14/2024

查看原文

创新与隐私的平衡：自然语言处理应用中的数据安全策略

作者: Shaobo Liu, Guiran Liu, Binrong Zhu, Yuanshuai Luo, Linxiao Wu, Rui Wang

本研究通过引入一种基于差分隐私的新算法来解决自然语言处理 (NLP) 中的隐私保护问题，旨在保护用户数据在聊天机器人、情感分析和机器翻译等常见应用中的安全。随着 NLP 技术的广泛应用，用户数据的安全和隐私保护已成为亟待解决的重要问题。本文提出了一种新的隐私保护算法，旨在有效防止用户敏感信息的泄露。通过引入差分隐私机制，我们的模型在添加随机噪声的同时确保了数据分析结果的准确性和可靠性。这种方法不仅降低了数据泄露带来的风险，而且在保护用户隐私的同时实现了数据的有效处理。与数据匿名化和同态加密等传统隐私方法相比，我们的方法在计算效率和可扩展性方面具有显著优势，同时在数据分析中保持较高的准确性。通过准确率 (0.89)、精确率 (0.85) 和召回率 (0.88) 等性能指标证明了所提算法的有效性，在隐私和效用之间取得了平衡，优于其他方法。随着隐私保护法规的日益严格，企业和开发者必须采取有效措施应对隐私风险。我们的研究为 NLP 领域隐私保护技术的应用提供了重要参考，强调了在技术创新和用户隐私之间取得平衡的必要性。未来，随着技术的不断进步，隐私保护将成为数据驱动应用的核心要素，推动整个行业的健康发展。

发布时间: 10/14/2024

查看原文

基于文本到图像扩散模型的上下文感知全身匿名化

作者: Pascl Zwick, Kevin Roesch, Marvin Klemp, Oliver Bringmann

在现实世界的数据集中，匿名化在保护个人敏感信息方面起着关键作用。例如，自动驾驶汽车需要高分辨率的面部特征来跟踪人员及其观看方向，以预测未来的行为并做出相应的反应。为了在保护人们隐私的同时保留数据集中的重要特征，用高度详细的匿名化人物替换人的全身至关重要。与进行面部匿名化相比，全身替换降低了通过发型或服装识别人员的能力。在本文中，我们提出了一种利用 Stable Diffusion 作为生成后端的全身人物匿名化工作流程。文本到图像扩散模型，如 Stable Diffusion、OpenAI 的 DALL-E 或 Midjourney，近年来变得非常流行，能够从单个文本提示创建逼真的图像。我们表明，我们的方法在图像质量、分辨率、Inception Score (IS) 和 Frechet Inception Distance (FID) 方面优于最先进的匿名化管道。此外，我们的方法与图像生成器无关，因此能够与最新的可用模型一起使用。

发布时间: 10/14/2024

查看原文

人工智能中的“人性”：探测大型语言模型的个性

作者: Baohua Zhan, Yongyi Huang, Wenyao Cui, Huaping Zhang, Jianyun Shang

大型语言模型（LLM）已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法……问卷调查是检测大型语言模型（LLM）人格的常用方法。然而，它们的可靠性经常受到两个主要问题的损害：幻觉（LLM产生不准确或不相关的响应）以及响应对呈现选项顺序的敏感性。为了解决这些问题，我们建议将文本挖掘与问卷调查方法相结合。文本挖掘可以从LLM的响应中提取心理特征，而不会受到选项顺序的影响。此外，由于此方法不依赖于特定答案，因此它减少了幻觉的影响。通过对两种方法的得分进行归一化并计算均方根误差，我们的实验结果证实了这种方法的有效性。为了进一步研究LLM人格特征的起源，我们对预训练语言模型（PLM）（如BERT和GPT）以及对话模型（ChatLLM）（如ChatGPT）进行了实验。结果表明，LLM确实包含某些人格特征，例如，ChatGPT和ChatGLM表现出“尽责性”的人格特征。此外，我们发现LLM的人格特征源于它们的预训练数据。用于训练ChatLLM的指令数据可以增强包含人格特征的数据的生成，并揭示它们隐藏的人格特征。我们将结果与人类平均人格得分进行比较，发现PLM中的FLAN-T5和ChatLLM中的ChatGPT的人格特征更接近于人类，分数差异分别为0.34和0.22。

发布时间: 10/14/2024

查看原文