arXiv 论文列表

作者: Xiaoliang He, Kangjie Dong, Jingkai Cao, Shuai Yu, Wei Li, Yi Yu

arXiv:2505.08681v1 宣布类型: cross 摘要: 歌声旋律提取（SME）是音乐信息检索领域的一个关键任务。然而，现有的方法面临几个限制：首先，先前的模型使用变换器来捕捉上下文依赖性，这导致了推理阶段的低效率，需要进行二次计算。其次，先前的研究通常依赖于基于频率的监督方法来估计基础频率（f0），忽略了实际的音乐表演基于音符。再次，变换器通常需要大量的标注数据才能达到最佳性能，但SME任务缺乏足够的标注数据。为了解决这些问题，在本文中，我们提出了一种基于mamba的网络，称为SpectMamba，用于使用置信二进制正则化的半监督歌声旋律提取。具体而言，我们首先引入视觉mamba以实现计算线性复杂度。然后，我们提出了一种新颖的音符-f0解码器，使模型能够更好地模仿音乐表演。为进一步缓解标注数据的稀缺性，我们引入了一个置信二进制正则化（CBR）模块，通过最大化正确类别的概率来利用未标注数据。所提出的方法在几个公开的数据集上进行了评估，并进行的实验表明了我们提出方法的有效性。

发布时间: 5/14/2025

查看原文

带有内心语言的社会机器人用于饮食指导

作者: Valerio Belcamino, Alessandro Carf\`i, Valeria Seidita, Fulvio Mastrogiovanni, Antonio Chella

arXiv:2505.08664v1 声称类型: cross 摘要：我们探讨了将内心语言作为一种机制，以增强饮食建议的社会机器人在透明度和信任方面的应用。在人类中，内心语言组织思维过程和决策；在机器人技术中，这通过使推理过程明确化来提高解释性。这在医疗保健场景中尤为关键，在这种场景中，对机器人助手的信任不仅取决于准确的建议，还取决于类似人类的对话，这使互动更加自然和吸引人。基于这一点，我们开发了一款提供饮食建议的社会机器人，并为其提供了内心语言能力，以验证用户输入、改进推理并生成清晰的说明。该系统结合了大型语言模型进行自然语言理解，以及一个知识图谱用于结构化的饮食信息。通过使决策过程更加透明，我们的方法加强了医疗保健中人机交互的信任度。我们通过测量架构的计算效率并开展小型用户研究来验证这一点，该研究评估了内心语言在解释机器人行为方面可靠性的能力。

发布时间: 5/14/2025

查看原文

人类活动识别的比较研究：运动、触觉和多模态方法

作者: Valerio Belcamino, Nhat Minh Dinh Le, Quan Khanh Luu, Alessandro Carf\`i, Van Anh Ho, Fulvio Mastrogiovanni

arXiv:2505.08657v1 交叉公告类型摘要：人类活动识别（HAR）对于有效的人机协作（HRC）至关重要，使机器人能够解读和响应人类动作。本研究评估了基于视觉的触觉传感器对15种活动进行分类的能力，并将其性能与基于IMU的数据手套进行了比较。此外，我们提出了一种结合触觉和运动数据的多模态框架，以利用它们互补的优势。我们考察了三种方法：基于运动的分类（MBC），使用IMU数据；基于触觉的分类（TBC），使用单视频流或多视频流；以及结合两种数据的多模态分类（MMC）。离线验证通过对分段数据集的评估，在受控条件下检查每种配置的准确性，而在线验证通过对连续动作序列的测试评估在线性能。结果表明，多模态方法在各种情况下都优于单一模态方法，突显了结合触觉和运动感知以增强协作机器人HAR系统的潜力。

发布时间: 5/14/2025

查看原文

极简主义者：开关电容电路用于高效的内存内计算门控循环单元

作者: Sebastian Billaudelle, Laura Kriener, Filippo Moro, Tristan Torchet, Melika Payvand

arXiv:2505.08599v1 类别: cross 摘要：递归神经网络（RNNs）长期以来一直是处理时序序列数据的候选模型，尤其是在嵌入式边缘计算环境中常见的内存受限系统中。最近在训练范式方面的进展现在激发了新一代高效RNNs的出现。我们提出了一个基于最小门控递归单元（GRUs）的精简且与硬件兼容的架构，并且还提供了一个与此模型配套的有效混合信号硬件实现。所提出的架构不仅利用了开关电容电路进行内存计算（IMC），而且还用于门控状态更新。混合信号内核仅依赖于由金属电容、传输门和时钟比较器组成的商品电路，从而极大地促进了规模扩大和转移到其他技术节点。我们在时间和序列数据上基准测试了该架构的性能，并引入了所有直接映射到硬件系统所需的限制。混合信号仿真验证了直接兼容性，重现了仅从软件网络模型记录的数据。

发布时间: 5/14/2025

查看原文

MESSI：城市环境多 elevation 语义分割图像数据集

作者: Barak Pinkovich, Boaz Matalon, Ehud Rivlin, Hector Rotstein

arXiv:2505.08589v1 共跨型通知摘要：本文介绍了一个由无人机在密集城市环境中拍摄的2525张图像组成的多海拔语义分割图像（MESSI）数据集。MESSI在两个主要特性上独具特色。首先，它包含不同海拔高度的图像，允许我们研究深度对语义分割的影响。其次，它包括在多个不同城市区域（不同海拔高度）拍摄的图像。这是因为它涵盖了无人机3D飞行捕获的视觉丰富性，进行了水平和垂直机动。MESSI包含标注有位置、方向以及相机内参的图像，可用于训练深度神经网络进行语义分割或其他感兴趣的应用（例如定位、导航和跟踪）。本文描述了该数据集并提供了标注详情。此外，还解释了使用几种神经网络模型进行语义分割的方法，并展示了相关统计数据。MESSI将在公共领域发布，作为使用无人机或类似车辆拍摄的城市密集环境图像进行语义分割评估的基准。

发布时间: 5/14/2025

查看原文

很小但很重要：关于小语言模型在无障碍AI教育领域的前景研究

作者: Yumou Wei, Paulo Carvalho, John Stamper

arXiv:2505.08588v1 类型: cross 摘要: GPT几乎与大型语言模型（LLM）划上了等号，成为AIED会议中越来越流行的一个术语。通过对关键词的简单搜索发现，在AIED 2024年报告的76篇长论文和短论文中，有61%描述了利用LLM解决教育长久以来的一些挑战的新解决方案，而有43%的论文特别提到了GPT。尽管由GPT开创的LLM为增强人工智能对教育的影响创造了激动人心的机会，但我们认为，该领域对GPT和其他资源密集型LLM（参数超过10亿）的重视，可能忽视了小语言模型（SLM）在为资源限制机构提供公平且负担得起的高质量AI工具方面所具有的潜在影响。通过在知识组件（KC）发现这一关键挑战上取得积极成果的支持，我们展示了像Phi-2这样的SLM可以在没有繁琐的提示策略的情况下产生有效的解决方案。因此，我们呼吁更多地关注基于SLM的AIED方法的发展。

发布时间: 5/14/2025

查看原文

DFA-CON：一种检测DeepFake艺术版权侵权的对比学习方法

作者: Haroon Wahab, Hassan Ugail, Irfan Mehmood

arXiv:2505.08552v1 宣告类型：交叉摘要：近期视觉内容生成AI工具的快速增长，特别是在视觉艺术作品方面的应用，引发了严重的版权侵权和伪造担忧。用于训练这些模型的大规模数据集通常包含有版权和无版权的艺术作品。鉴于生成模型倾向于记忆训练模式，它们在不同程度上容易受到版权侵犯。基于最近提出的DeepfakeArt Challenge基准测试，本文引入了DFA-CON，这是一种对比学习框架，旨在检测版权侵权或伪造的AI生成艺术。DFA-CON在对比学习框架中学习一种区分性表示空间，使得原始艺术作品与其伪造版本之间存在亲和性。该模型在包括填补、风格转移、对抗性扰动和cutmix在内的多种攻击类型上进行了训练。评估结果表明，该模型在大多数攻击类型上表现出稳定的检测性能，优于最近的一些预训练基础模型。在接受后，代码和模型检查点将公开发布。

发布时间: 5/14/2025

查看原文

从感知到行动：连接机器人 manipulation 中的推理与决策

作者: Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao

arXiv:2505.08548v1 语义类型: cross 摘要：在机器人操作中实现泛化仍然是一个关键性的挑战，尤其对于未见过的场景和新型任务而言。当前的 Vision-Language-Action (VLA) 模型虽然基于通用的 Vision-Language 模型 (VLMs)，但由于实体数据集中普遍存在的稀缺性和异构性，仍无法实现稳健的零样本性能。为了解决这些问题，我们提出了 FSD (From Seeing to Doing)，一种新颖的视觉语言模型，通过空间关系推理生成中间表示，为机器人操作提供精细的指导。我们的方法结合了分层数据管道进行训练，并采用自我一致性机制，将空间坐标与视觉信号对齐。通过广泛的实验，我们全面验证了 FSD 在“看”和“做”方面的能力，在 8 个基准测试中均实现了出色的空间推理和实体引用能力，并在我们提出的更具挑战性的基准测试 VABench 上也表现出色。我们还验证了在机器人操作中的零样本能力，在 SimplerEnv 和真实机器人设置中，FSD 的性能显著优于基线方法。实验结果表明，在 SimplerEnv 中，FSD 的成功率为 54.1%，在 8 个真实任务中的成功率为 72%，超过了最强基线 30%。

发布时间: 5/14/2025

查看原文

通过辩论，真相变得愈加清晰！大型语言模型驱动的多agent系统揭露假新闻

作者: Yuhan Liu, Yuxuan Liu, Xiaoqing Zhang, Xiuying Chen, Rui Yan

arXiv:2505.08532v1 交叉主题类型：反驳摘要：在当今数字环境中，通过社交媒体快速传播的假新闻造成了重大的社会挑战。目前大多数现有的检测方法要么使用传统的分类模型，这些模型缺乏解释性和泛化能力，要么为大型语言模型（LLMs）定制特定提示来直接生成解释和结果，未能充分利用LLMs的推理能力。受“真理在辩论中变得更加清晰”这一格言的启发，我们的研究引入了一种名为TruEDebate（TED）的新颖多智能体系统，以增强假新闻检测的解释性和有效性。TED采用了一种严格的辩论过程，灵感来源于正式辩论的设定。在我们的方法中，核心组成部分有两个创新组件：DebateFlow 智能体和InsightFlow 智能体。DebateFlow 智能体将智能体组织成两支队伍，一支支持新闻的真实性，另一支则挑战新闻的真实性。这些智能体通过开场陈述、交叉询问、反驳和总结陈述进行互动，模拟了一个类似于人类话语分析的严格辩论过程，从而使新闻内容得到全面的评估。同时，InsightFlow 智能体包含两个专门的子智能体：Synthesis 智能体和Analysis 智能体。Synthesis 智能体概括辩论的内容，并提供一个总体视角，确保评估的连贯性和全面性。Analysis 智能体包括角色感知编码器和辩论图，通过注意力机制整合角色嵌入，并建模辩论角色和论点之间的交互，提供最终判断。

发布时间: 5/14/2025

查看原文

ExEBench: 极端地球事件上基础模型的基准测试

作者: Shan Zhao, Zhitong Xiong, Jie Zhao, Xiao Xiang Zhu

arXiv:2505.08529v1 Announce Type: cross 摘要：我们的星球正面临越来越频繁的极端事件，这些事件对人类生活和生态系统构成了重大风险。近年来，特别是在大规模数据集上训练的预训练模型（FMs）方面的机器学习（ML）进步，在提取特征方面表现出色，并有望在灾害管理中发挥作用。然而，这些模型往往继承了训练数据中的偏见，这对其在极端情况下的性能构成挑战。为了探讨预训练模型在极端事件背景下的可靠性，我们引入了ExEBench（极端地球基准），涵盖七类极端事件类别，包括洪水、野火、风暴、热带气旋、极端降水、热浪和寒潮。该数据集具有全球覆盖范围、不同的数据量以及多样化的数据来源，这些数据来源具有不同的空间、时间和光谱特征。为了扩大预训练模型在现实世界中的影响，我们包含了多个与极端事件检测、监控和预报密切相关的具有挑战性的机器学习任务。ExEBench旨在（1）评估预训练模型在多种高冲击任务和领域的可推广性，（2）促进有利于灾害管理的新型机器学习方法的发展，并（3）提供一个平台，用于分析极端事件之间的相互作用和级联效应，以增进我们对地球系统，特别是在未来几十年预期气候变暖情况下的理解。该数据集和代码已公开，可在https://github.com/zhaoshan2/EarthExtreme-Bench获取。

发布时间: 5/14/2025

查看原文