arXiv 论文列表

YesBut：一个高质量的多模态数据集，用于评估视觉-语言模型对讽刺理解的能力

arXiv:2409.13592v1 公告类型: 交叉摘要: 理解讽刺和幽默对于当前的视觉语言模型来说是一项艰巨的任务。在本文中，我们提出了讽刺图像检测（检测图像是否具有讽刺意味）、理解（生成图像具有讽刺意味的原因）和完成（给定图像的一半，从两个给定选项中选择另一半，使得完整的图像具有讽刺意味）等具有挑战性的任务，并发布了一个高质量的数据集YesBut，包含2547张图像，其中1084张具有讽刺意味，1463张不具有讽刺意味，涵盖了不同的艺术风格，用于评估这些任务。数据集中的每张讽刺图像都描绘了一个正常场景，同时伴随着一个冲突的场景，这些场景既有趣又具有讽刺意味。尽管当前的视觉语言模型在多模态任务如视觉问答和图像描述方面取得了成功，但我们的基准测试实验表明，这些模型在YesBut数据集上的零样本设置下，对于所提出的任务在自动化和人工评估方面表现不佳。此外，我们还发布了一个包含119张真实讽刺照片的数据集，供进一步研究使用。数据集和代码可在https://github.com/abhi1nandy2/yesbut_dataset获取。

发布时间: 9/23/2024

查看原文

ChainBuddy：生成大型语言模型管道的AI代理系统

arXiv:2409.13588v1 公告类型: 交叉摘要: 随着大型语言模型(LLMs)的进步,其潜在应用显著增加。然而,评估LLM在用户特定任务上的行为并构建有效的评估流程仍然具有挑战性。许多用户面临从何处开始的困境,常被称为"空白页面"问题。ChainBuddy是ChainForge平台内置的生成评估LLM流程的AI助手,旨在解决这一问题。ChainBuddy提供了一种简单且用户友好的方式来规划和评估LLM行为,使这一过程不再令人生畏,并使其在广泛的潜在任务和用例中更易获取。我们报告了一项针对ChainBuddy与基线界面的用户内研究。我们发现,在使用AI辅助时,参与者报告的工作量要求较低,并且对设置LLM行为评估流程更有信心。我们为未来辅助用户进行开放式AI评估的界面提供了见解。

发布时间: 9/23/2024

查看原文

神经符号一致性分类

过去几十年见证了机器学习（ML）的显著进步，主要由深度学习（DL）驱动。然而，尽管机器学习在许多领域取得了显著成功，但其无法提供一致性保证以及系统脆弱性（面对分布偏移、对抗攻击等）的问题，阻碍了可信人工智能系统的设计。为了缓解这种脆弱性并提供关于机器学习系统行为的某些保证，已经探索了几种研究路径，其中包括神经符号人工智能和一致性预测。神经符号人工智能是一个新兴的研究领域，旨在将神经网络的学习能力与符号系统的推理能力相结合。这种混合化的目标之一是提供理论保证，确保系统的输出符合某些先验知识。一致性预测是一组技术，通过将单一预测转换为一组预测（称为置信集），来考虑机器学习系统的不确定性。有趣的是，这带来了关于真实标签存在于置信集内的统计保证。这两种方法都是无分布的且模型不可知的。在本文中，我们探讨了这两种方法如何相互补充。我们介绍了多种神经符号一致性预测技术，并探讨了它们的不同特性（置信集大小、计算复杂度等）。

发布时间: 9/23/2024

查看原文

时间与标记：端到端言语不流畅检测基准测试

arXiv:2409.13582v1 公告类型: 交叉摘要: 语音不流畅建模是一项检测语音中不流畅现象的任务，如重复、阻塞、插入、替换和删除。最近的进展大多将此问题视为基于时间的对象检测问题。在这项工作中，我们从新的角度重新审视了这个问题：将不流畅现象标记化，并将检测问题建模为基于标记的自动语音识别（ASR）问题。我们提出了基于规则的语音和文本不流畅模拟器，并开发了VCTK-token，然后开发了类似Whisper的seq2seq架构，以构建一个性能良好的新基准。我们还系统地比较了我们提出的基于标记的方法与基于时间的方法，并提出了一个统一的基准，以促进未来的研究工作。我们为更广泛的科学界开源了这些资源。项目页面可在https://rorizzz.github.io/获取。

发布时间: 9/23/2024

查看原文

区域提示微调：利用区域文本提示实现细粒度场景文本检测

arXiv:2409.13576v1 公告类型: 交叉摘要: 近期在提示调优方面的进展成功地将大规模模型如对比语言-图像预训练（CLIP）适应于场景文本检测等下游任务。通常，文本提示补充了文本编码器的输入，专注于全局特征而忽略了细粒度细节，导致在场景文本检测任务中细粒度文本被忽视。本文提出了一种细粒度场景文本检测的区域提示调优（RPT）方法，其中提出的区域文本提示有助于聚焦于细粒度特征。区域提示调优方法将区域文本提示分解为单个字符，并将视觉特征图分割为区域视觉标记，创建字符与标记之间的一一对应关系。这使得字符能够匹配标记的局部特征，从而避免细节特征和细粒度文本的遗漏。为此，我们引入了一个共享位置嵌入来连接每个字符与其对应的标记，并采用双向距离损失来对齐每个区域文本提示字符与目标“文本”。为了在细粒度级别上细化信息，我们在编码前后实现了字符-标记级别的交互。我们提出的方法结合了图像-文本过程中的一般得分图与字符-标记匹配得出的区域得分图，生成一个最终得分图，该图能够平衡全局和局部特征，并输入到DBNet中进行文本检测。在ICDAR2015、TotalText和CTW1500等基准上的实验证明了RPT的出色性能，突显了其在场景文本检测中的有效性。

发布时间: 9/23/2024

查看原文

可扩展的多智能体强化学习在工厂级动态调度中的应用

实时动态调度是现代制造过程中一项至关重要但极其复杂的任务，因其高决策复杂性而备受挑战。近年来，强化学习（RL）作为一种有效应对这一挑战的技术，逐渐受到关注。然而，传统的RL方法通常依赖于人工制定的调度规则，不适用于大规模工厂范围内的调度。为了填补这一空白，本文将领导者-跟随者多智能体强化学习（MARL）概念应用于调度问题，通过将调度问题分解为一系列子问题，由每个智能体分别处理，以实现可扩展性。我们进一步通过提出一种基于规则的转换算法来强化这一过程，以防止因智能体错误导致的生产能力灾难性损失。实验结果表明，所提出的模型在多个方面优于最先进的基于深度RL的调度模型。此外，该模型在应对需求变化时表现出最强的调度鲁棒性。总体而言，所提出的基于MARL的调度模型为实时调度问题提供了一种有前景的解决方案，具有在各种制造业中应用的潜力。

发布时间: 9/23/2024

查看原文

深度学习与机器学习：推进大数据分析与管理——基于TensorFlow的预训练模型

本书专注于TensorFlow预训练模型在深度学习中的应用，提供了详细指导，帮助读者有效利用这些模型进行图像分类和目标检测等任务。书中涵盖了ResNet、MobileNet和EfficientNet等现代架构的实际实现，通过真实世界的示例和实验展示了迁移学习的强大功能。本书比较了线性探测和模型微调，并使用PCA、t-SNE和UMAP等技术进行可视化，帮助读者直观理解不同方法的影响。本书适合从初学者到高级用户，包含完整的示例代码和逐步指导，使读者能够快速掌握如何利用预训练模型在实际场景中提升性能。通过理论洞察与实践操作的结合，本书为读者提供了应对各种深度学习挑战的知识和信心。

发布时间: 9/23/2024

查看原文

生成模型与对抗扰动在神经网络高效可视化中的应用

arXiv:2409.13559v1 公告类型: 交叉摘要: 本文提出了一种通过生成网络进行深度可视化的新方法，相较于现有方法有所改进。我们的模型通过减少使用的网络数量简化了架构，仅需一个生成器和一个判别器，而传统方法涉及多个网络。此外，我们的模型需要较少的先验训练知识，并采用非对抗性训练过程，其中判别器作为生成器的指导而非竞争对手。本工作的核心贡献在于其能够生成与特定类别标签对齐的详细可视化图像。我们的模型采用了独特的跳跃连接启发式块设计，通过在多层之间传播类别信息来增强标签导向的图像生成。此外，我们探讨了这些生成的可视化如何被用作对抗样本，以最小的可感知修改有效地欺骗分类网络。实验结果表明，我们的方法在目标攻击和非目标攻击中均优于传统的对抗样本生成技术，扰动最小的情况下达到了高达94.5%的欺骗率。本工作填补了可视化方法与对抗样本之间的空白，提出欺骗率可以作为评估可视化质量的定量指标。本研究的见解为神经网络的可解释性及其对抗攻击的脆弱性提供了新的视角。

发布时间: 9/23/2024

查看原文

通过视觉增强实现可信的仇恨言论检测

arXiv:2409.13557v1 公告类型: 交叉摘要: 社交媒体平台上仇恨言论的激增构成了重大挑战，仇恨言论检测（HSD）变得日益重要。当前的HSD方法侧重于丰富上下文信息以提高检测性能，但忽略了仇恨言论的内在不确定性。我们提出了一种新的HSD方法，名为通过视觉增强的可信仇恨言论检测方法（TrusV-HSD），该方法通过与扩散视觉图像的整合来增强语义信息，并通过可信损失来缓解不确定性。TrusV-HSD通过多模态连接有效提取可信信息，无需配对数据即可学习语义表示。我们在公开的HSD数据集上的实验证明了TrusV-HSD的有效性，显示出显著优于传统方法的改进。

发布时间: 9/23/2024

查看原文

生成具有实体定位和共指角色的视觉故事

arXiv:2409.13555v1 公告类型: 交叉摘要: 角色在叙事中至关重要。他们推动情节发展，建立情感联系，并体现故事的主题。视觉叙事方法更侧重于情节及其相关事件，而不围绕特定角色构建叙事。因此，生成的故事显得通用，角色提及缺失、模糊或不准确。为了解决这些问题，我们引入了以角色为中心的故事生成这一新任务，并提出了首个能够预测具有一致且连贯角色提及的视觉故事的模型。我们的模型在一个新数据集上进行了微调，该数据集基于广泛使用的VIST基准构建。具体来说，我们开发了一个自动化流程，以视觉和文本角色共指链丰富VIST。我们还提出了新的评估指标，以衡量故事中角色的丰富性和共指性。实验结果表明，与基线和最先进的系统相比，我们的模型生成的故事中角色反复出现，且在更大程度上保持一致和共指。

发布时间: 9/23/2024

查看原文