arXiv 论文列表

作者: Niketa Penumajji

arXiv:2503.19677v1 类型: cross 摘要：本文探讨了通过梅尔频谱图表示的音频文件来使用卷积神经网络（CNNs）对语音中的情绪进行分类的应用。传统的如高斯混合模型和隐马尔可夫模型等方法在实际部署中证明不够充分，促使人们转向深度学习技术。通过将音频数据转化为可视化格式，CNN模型自主学习识别复杂的模式，从而提高分类准确性。开发的模型被集成到用户友好的图形界面中，便于实时预测，并在教育环境中具有潜在应用价值。本研究旨在推进对深度学习在语音情绪识别中的理解，评估模型的可行性，并为在学习环境中集成技术做出贡献。

发布时间: 3/26/2025

查看原文

BiblioPage：扫描标题页数据集，用于 bibliographic 元数据提取

作者: Jan Koh\'ut, Martin Do\v{c}ekal, Michal Hradi\v{s}, Marek Va\v{s}ko

arXiv:2503.19658v1 文献类型:跨领域摘要：手工数字化元数据耗费时间且劳动密集，特别是在具有高度文档间格式差异的历史和现实档案中。尽管机器学习取得了进展，但由于缺乏专门的数据集来提取元数据，自动化仍受到阻碍。为解决这一问题，我们提出了BiblioPage，这是一个包含标注了结构化图书元数据的扫描书名页的数据集。该数据集包含了来自14个捷克图书馆的约2,000本单行著作书名页，跨越了广泛出版时期的多种字体风格和布局结构。每个书名页都标注了包括书名、作者、出版信息在内的16项图书属性，同时还伴有精确的位置信息，以边界框的形式呈现。为了从该数据集中提取结构化信息，我们评估了如YOLO和DETR等物体检测模型结合基于变压器的光学字符识别的效果，达到了最高的mAP值52和F1分数59。此外，我们还评估了各种视觉大型语言模型，包括LlamA 3.2-Vision和GPT-4o，最佳模型达到了F1分数67。BiblioPage为图书元数据提取提供了一个现实世界的基准，有助于文档理解、文档问题回答和文档信息提取。数据集和评估脚本可在以下地址获得：https://github.com/DCGM/biblio-dataset

发布时间: 3/26/2025

查看原文

面向未来不确定性的时间序列预测可靠性：模糊性和新颖性排除机制

作者: Ninghui Feng, Songning Lai, Xin Zhou, Jiayu Yang, Kunlong Feng, Zhenxiao Yin, Fobao Zhou, Zhangyi Hu, Yutao Yue, Yuxuan Liang, Boyu Wang, Hang Zhao

arXiv:2503.19656v1 类型: cross 摘要：在实际时间序列预测中，不确定性以及缺乏可靠的评估方法构成了重大挑战。值得注意的是，预测误差往往源于对内分布数据的拟合不足以及无法处理外分布输入。为了提高模型的可靠性，我们引入了一种结合模糊性和新颖性拒绝的双重拒绝机制。模糊性拒绝通过预测误差方差来实现，模型在历史误差方差分析后，在低置信度时可以拒绝预测。新颖性拒绝则利用变分自编码器和马哈拉诺比斯距离来检测与训练数据的偏差。这种双重方法通过减少误差并适应数据变化，在动态环境中提高了预测的可靠性，并在复杂场景中推进了可靠性。

发布时间: 3/26/2025

查看原文

RGB-Th-Bench：一种用于视觉-温差理解的视觉语言模型密集基准

作者: Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen

arXiv:2503.19654v1 剪贴类型: cross 摘要: 我们引入了RGB-Th-Bench，这是第一个旨在评估视觉语言模型(Vision-Language Models, VLMs)理解RGB与热像配对图像能力的基准。尽管VLMs在视觉推理和多模态理解方面取得了显著进步，但其评估主要限于基于RGB的基准，留下了对其在红外视觉任务中能力评估的关键缺口。现有的可见光-红外光数据集要么任务特定，要么缺乏用于严格模型评估的高质量注释。为了解决这些限制，RGB-Th-Bench 提供了一个全面的评估框架，涵盖了14个不同的技能维度，共有1,600多个专家注释的“是”或“否”问题。基准采用了两个准确度指标：标准的问题级别准确度和更严格的技能级别准确度，后者评估模型在每个技能维度内的多个问题中的鲁棒性。这一设计确保了对模型性能的全面评估，包括对对抗性和幻觉响应的抵御能力。我们在19个最先进的视觉语言模型上进行了广泛的评估，揭示了RGB-热像理解能力的巨大性能差距。我们的结果表明，即使最强的模型在理解热像时也存在困难，其性能受到基于RGB的能力的严重影响。此外，预训练中缺乏大规模的应用特定和专家注释的热图像配对数据集也是观察到的性能差距的重要原因之一。RGB-Th-Bench 强调了进一步推进多模态学习以缩小可见光和热像理解之间的差距的紧迫需求。数据集可通过此链接获取，评估代码也将公开发布。

发布时间: 3/26/2025

查看原文

OpenSDI：在开放世界中识别扩散生成的图像

作者: Yabin Wang, Zhiwu Huang, Xiaopeng Hong

arXiv:2503.19653v1 宣告类型: cross 摘要：本文识别出OpenSDI这一挑战，即在开放世界环境中识别由扩散生成的图像。针对这一挑战，我们定义了一个新的基准，即OpenSDI数据集（OpenSDID），因其利用了大型视觉-语言模型模拟开放世界扩散基础操作而与其他现有数据集有所不同。OpenSDID的另一个突出特点是包含了由扩散模型全局和局部操纵的图像的检测和定位任务。为应对OpenSDI挑战，我们提出了一种融合预训练模型（SPM）方案，旨在构建一系列基础模型的组合。此方法利用了多预训练基础模型的合作机制，以增强OpenSDI语境下的泛化能力，通过引发和关注策略将多个预训练模型进行协同作用。基于此方案，我们引入了MaskCLIP，这是一种SPM为基础的模型，将对比语言-图像预训练（CLIP）与遮蔽自编码器（MAE）对齐。在OpenSDID上的广泛评估表明，MaskCLIP在开放SDI挑战中的性能显著优于当前最先进的方法，在IoU（F1为14.11%）和准确率（F1为2.38%）方面分别取得了14.23%和2.05%的相对改进，针对定位和检测任务，均优于第二佳模型。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI获得。

发布时间: 3/26/2025

查看原文

HausaNLP 在 SemEval-2025 任务 3：细粒度模型感知幻觉检测

作者: Maryam Bala, Amina Imam Abubakar, Abdulhamid Abubakar, Abdulkadir Shehu Bichi, Hafsa Kabir Ahmad, Sani Abdullahi Sani, Idris Abdulmumin, Shamsuddeen Hassan Muhamad, Ibrahim Said Ahmad

arXiv:2503.19650v1 类别: cross 摘要：本文报告了我们对幻觉及相关可观察过度生成错误的多语言共享任务 MU-SHROOM 的研究成果，该任务专注于在大型语言模型（LLMs）生成的输出中识别幻觉及相关过度生成错误。共享任务涉及在14种语言中检测构成幻觉的具体文本片段。为了解决这一任务，我们旨在提供关于英文中幻觉发生及其严重性的细腻、模型意识的理解。我们使用自然语言推理，并使用包含400个样本的合成数据集对ModernBERT模型进行微调，获得了0.032的Intersection over Union（IoU）分数和0.422的相关性分数。这些结果表明，模型的置信度分数与实际存在的幻觉之间存在适度正相关。IoU分数表明，我们的模型在预测的幻觉片段和真实标注之间有一定的重叠，但重叠较低。考虑到幻觉检测的复杂性，这种性能并不令人意外。幻觉通常通过微妙的方式表现出来，依赖于上下文，使得准确确定其确切边界变得困难。

发布时间: 3/26/2025

查看原文

从 horcrux 恢复：一种基于雷达信号组件的谱图增强方法用于心脏特征监测

作者: Yuanyuan Zhang, Sijie Xiong, Rui Yang, EngGee Lim, Yutao Yue

arXiv:2503.19649v1 类别：交叉学科摘要：基于雷达的健康监测已成为一种有效的无接触方式，为提供准确的生命体征测量做出了贡献，但数据稀缺性阻碍了基于深度学习的方法的相关研究。数据增强通常用于通过修改现有数据来丰富数据集，但大多数增强技术只能与分类任务结合使用。为了使增强适应回归任务，这项研究提出了一种名为Horcrux的光谱增强方法，用于包含分类和回归任务的雷达心脏特征监测（例如心率检测、心电图重建）。该提出的方法旨在增加输入样本的多样性，同时增强的光谱图仍然忠实于原始的真实生命体征。此外，Horcrux提出在特定区域注入零值，以提高深度学习模型对微妙心脏特征的意识，从而改善有限数据集的性能。实验结果表明，Horcrux在心脏监测中的整体改进达到了16.20%，并有可能扩展到其他基于光谱图的任务。代码将在发表后公布。

发布时间: 3/26/2025

查看原文

说或做？有效提示视觉-语言模型进行语义分割

作者: Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf

arXiv:2503.19647v1 提交类型：交叉领域摘要：大型Vision-Language模型（VLMs）越来越被视为可以通过提示进行指令以解决多样化任务的基础模型，而无需专门的训练。我们探讨了一个看似明显的问题：如何有效地提示VLMs进行语义分割。为此，我们系统地评估了几种最新模型，在由文本或视觉提示引导的情况下，在分布外的MESS数据集集合上的分割性能。我们引入了一种可扩展的提示方案——少量示例提示的语义分割，该方案借鉴了开放词汇分割和少数样本学习的理念。结果显示，在交并比指标上，VLMs比专门针对特定分割任务进行训练的模型落后约30%。此外，我们发现文本提示与视觉提示是互补的：两种模式中的每一种都会在其他模式可以解决的许多例子上失效。我们的分析表明，能够预判最有效的提示模态可以提高11%的性能。受我们的发现启发，我们提出了PromptMatcher——一个极为简单的无需训练的基本方法，将文本和视觉提示相结合，在少量示例提示的语义分割上取得了最先进的结果，比最佳文本提示的VLM高出2.5%，比最佳视觉提示的VLM高出3.5%。

发布时间: 3/26/2025

查看原文

可分析的音乐思维链提示以实现高保真音乐生成

作者: Max W. Y. Lam, Yijin Xing, Weiya You, Jingcheng Wu, Zongyu Yin, Fuqiang Jiang, Hangyu Liu, Feng Liu, Xingda Li, Wei-Tsung Lu, Hanyu Chen, Tong Feng, Tianwei Zhao, Chien-Hung Liu, Xuchen Song, Yang Li, Yahui Zhou

arXiv:2503.19611v1 类型: cross 摘要：自回归（AR）模型在生成高质量音乐方面展现了令人印象深刻的性能。然而，AR模型中传统的下一个token预测范式并不符合音乐创作中的人类创造过程，这可能会影响生成样本的音乐性。为克服这一限制，我们引入了MusiCoT，这是一种专门针对音乐生成的新型chain-of-thought（CoT）提示技术。MusiCoT使AR模型能够在生成音频token之前先概述整体音乐结构，从而增强生成作品的连贯性和创造力。通过利用CLAP（对比语言-音频预训练）模型，我们建立了一条“音乐思考链”，使MusiCoT具备可扩展性并且不依赖于人工标注数据，这与传统CoT方法形成对比。此外，MusiCoT还允许深入分析音乐结构，例如乐器编配，并支持音乐引用——接受变量长度的音频输入作为可选的风格参考。这种创新方法有效解决了复制问题，使MusiCoT成为音乐提示中一个重要的实用方法。我们的实验结果表明，MusiCoT在客观和主观度量指标上始终表现出优异的性能，生成的音乐质量与最先进的生成模型相当。我们的样本可在 https://MusiCoT.github.io/ 获取。

发布时间: 3/26/2025

查看原文

通过战后审查实现快速共享人机心理模型对齐

作者: Edward Gu, Ho Chit Siu, Melanie Platt, Isabelle Hurley, Jaime Pe\~na, Rohan Paleja

arXiv:2503.19607v1 类型: cross 摘要: 在本文中，我们提出了两项改进人类-机器团队合作（HMT）研究的创新贡献：1）一个Minecraft测试平台，用于加速协作AI代理的测试和部署；2）一个工具，允许用户回顾和分析HMT剧集中的行为，以促进共享心智模型的发展。我们的基于浏览器的Minecraft测试平台允许在没有繁琐设置的情况下，在一个具有连续空间、实时和部分可观测性的环境中快速测试协作代理，同时伴随着真实的人类。由于Minecraft拥有广泛的玩家基础和丰富的预制AI代理生态系统，我们希望这一贡献能够帮助研究人员快速设计新的协作代理，并理解HMT中不同的人类因素。我们的心智模型对齐工具通过提供团队成员（即人类和AI）的第一人称视角视频回放以及利用GPT-4的聊天界面来解答有关AI经历和模型细节的各种查询，促进了用户主导的战后分析。

发布时间: 3/26/2025

查看原文