arXiv 论文列表

作者: Arpan Nagar, Joseph Bensabat, Jokent Gaza, Moinak Dey

arXiv:2504.10821v1 Announce Type: cross 摘要：本文研究了前卫摇滚音乐的分类问题，这种音乐风格以其复杂的编排和多样的乐器配置为特点，与其他音乐风格区分开来。为了解决这个音乐信息检索（MIR）任务，我们使用Librosa库从歌曲片段中提取了全面的音频特征，包括频谱图、梅尔频率倒谱系数（MFCC）、音阶图以及节拍位置。采用了一种赢家通吃投票策略，将片段级别的预测汇总为最终的歌曲分类。我们对比分析了各种机器学习技术。探索了集成方法，包括Bagging（随机森林、ExtraTrees、Bagging分类器）和Boosting（XGBoost、梯度提升），并利用主成分分析（PCA）进行降维处理以应对高维特征集带来的计算约束。此外，还探讨了深度学习方法，包括开发了特定层结构设计、归一化和激活函数的自定义1D卷积神经网络（1D CNN，分别命名为“Zuck”和“Satya”）。同时，我们还微调了最先进的音频光谱变换器（AST）模型，利用其基于注意力机制的方法进行音频分类。在验证集和测试集上的性能评估显示了不同模型的不同效果，集成方法如ExtraTrees在测试集上的准确率达到了76.38%。这项研究为前卫摇滚风格分类这一复杂任务提供了多样化机器学习范式的应用和相对性能的见解。

发布时间: 4/16/2025

查看原文

FHBench: 向 EFFICIENT 和个性化联邦学习在多模态医疗中的目标迈进

作者: Penghao Wang, Qian Chen, Teng Zhang, Yingwei Zhang, Wang Lu, Yiqiang Chen

arXiv:2504.10817v1 类别: cross 摘要: 联邦学习(Federated Learning, FL)已成为一种有效的方法，可以在不共享患者数据的情况下促进多机构协作，为各种应用提供了多种适应性方法。然而，现实世界的医疗数据集通常具有多模态性，且计算资源有限，为现有的FL方法带来了重大挑战。认识到这些限制，我们开发了联邦医疗保健基准(Federated Healthcare Benchmark, FHBench)，一个专门针对源自实际医疗保健应用的数据集设计的基准。FHBench 包含了神经系统、心血管系统、呼吸系统和一般病理学等各个领域的关键诊断任务，为多模态医疗保健评估提供了全面的支持，并填补了现有基准中的重大空白。基于 FHBench，我们引入了高效个性化联邦学习与自适应 LoRA(Efficient Personalized Federated Learning with Adaptive LoRA, EPFL)框架，该框架在各种医疗保健模态中展示了卓越的高效性和有效性。我们的结果突显了 FHBench 作为基准测试工具的稳健性，并展示了 EPFL 作为促进以医疗保健为中心的联邦学习创新方法的潜力，解决了现有方法的关键局限性。

发布时间: 4/16/2025

查看原文

端到端泊车数据集：一个用于端到端自主泊车的公开基准

作者: Kejia Gao, Liguo Zhou, Mingjun Liu, Alois Knoll

arXiv:2504.10812v1 宣传类型: cross 摘要：端到端学习在自动驾驶停车方面显示出了巨大的潜力，然而缺乏公开的数据集限制了其可再现性和基准测试。尽管先前的工作引入了一种基于视觉的停车模型以及数据生成、训练和闭环测试的管道，但数据集本身并未发布。为了填补这一空白，我们创建并开源了一个高质量的端到端自动驾驶停车数据集。使用原始模型，我们在较低的平均位置误差（0.24米）和方向误差（0.34度）的情况下实现了85.16%的整体成功率。

发布时间: 4/16/2025

查看原文

巡逻视觉：野生环境中的自动车牌识别

作者: Anmol Singhal Navya Singhal

arXiv:2504.10810v1 宣传类型: 交叉摘要：公共服务业中采用以人工智能驱动的技术仍然很低，这主要是由于大规模人口信息的准确性和速度方面的挑战。尽管计算机视觉技术在交通监控领域具有相对优势，特别是在自动驾驶领域，但这些技术并未得到广泛应用。尽管有大量的学术方法用于自动车牌识别（ALPR）系统，但很少有方法能提供城市巡逻的端到端解决方案。本文提出了一种基于低功耗GPU的新颖原型，用于部署在城市环境中的监控车辆上，以实现自动车辆检测、识别和跟踪。在本文中，我们提出了一种适用于新加坡车牌的完整ALPR系统，包括单行和双行车牌，并构建了自己的基于YOLO的网络。我们重点研究了现实世界应用场景中不受约束的捕获场景，车牌可能会因侧向视角而严重失真。在本文中，我们首先使用RFB-Net从全图像中检测车牌，并在同一图像中校正多个失真的车牌。之后，检测到的车牌图像被送入我们的网络进行字符识别。我们使用一个包含超过16,000张图像的新建数据集评估我们提出的系统性能。该系统能够在86%的_precision_下正确检测车牌，并在测试集中有67%的情况下识别出车牌字符，而在一个字符部分匹配的情况下，准确率达到89%。我们还测试了系统的延迟，在Tesla P4 GPU上实现64FPS。

发布时间: 4/16/2025

查看原文

Thrones之名：评估LLM对学生姓名、种族和性别在等级体系中排名的方式

作者: Annabella Sakunkoo, Jonathan Sakunkoo

arXiv:2504.10797v1 宣布类型: cross 摘要: 在不同的文化中，名字告诉了我们很多关于拥有者的信息，因为名字携带了深刻的人性和文化意义。名字还作为性别、种族和社会层级中地位的强大信号，在这种层级中，个人的位置影响了他人对其能力与价值的预期。随着大规模语言模型（LLM）的广泛应用，由于名字通常是LLM输入的一部分，评估LLM是否基于名字将人们排定在不同的地位等级上变得至关重要，如果存在这种情况，是否是以一种不公平、有偏见的方式。尽管早期的研究主要关注名字中的性别偏见，但很少有人注意到姓氏，更少有人关注姓氏与名字结合后的效果。在本研究中，我们对五个种族群体的名字变体进行了大规模分析，以考察AI中名字偏见的体现。我们的研究调查了不平等的三个关键特征，发现LLM反映了并强化了基于性别和种族信号的名字等级结构，这些名字编码了不同的能力、领导能力和经济潜力期望。不同于普遍认为AI倾向于偏爱白人，我们展示了东亚和在某些情况下南亚的名字获得更高的排名。我们还细化了亚洲人这一预计到2055年将成为美国最大移民群体的人口。我们的结果挑战了单一的亚洲模范少数族裔假设，描绘了一个更为复杂和分层的偏见模型。性别会调节偏见，女孩在某些种族群体中面临着不公平的劣势。此外，通过采用西方的名字跨越文化类别，对于东亚和东南亚学生而言，特别是对于女孩，AI对其地位的感知得到改善。我们的发现强调了在评估LLM时对种族、性别和混和身份进行交叉和更细致理解的重要性。

发布时间: 4/16/2025

查看原文

视觉语言模型在神经心理测试中显示出广泛的视觉缺陷

作者: Gene Tangtartharakul, Katherine R. Storrs

arXiv:2504.10786v1 Announce Type: cross 摘要：视觉语言模型（VLMs）在视觉推理任务中表现出色，成功解决了需要较高水平图像理解能力的大学级挑战。然而，近期关于VLMs在处理诸如方向、位置、连续性和遮挡等基本视觉概念方面遇到困难的一些报道暗示了人类与VLM视觉之间的潜在鸿沟。在这里，我们使用神经心理学工具对三种最先进的VLMs的视觉能力进行了系统评估。利用从六个临床和实验battery中抽取的51项测试，我们在健康成年人的正常表现基础上，描述了领先VLMs的视觉能力。虽然这些模型在简单的物体识别任务中表现出色，但我们发现低级和中级视觉能力存在广泛缺陷，这些缺陷在人类中被视为临床显著的。通过验证的test batteries对这些选择性缺陷的特征描述表明，一个人造系统可以在没有发展人类不需要显性训练的基础视觉概念的情况下实现复杂物体识别。

发布时间: 4/16/2025

查看原文

ATLASv2：LLM引导的适应性地标获取与边缘导航

作者: Mikolaj Walczak, Uttej Kallakuri, Tinoosh Mohsenin

arXiv:2504.10784v1 平台类型: 横向摘要：部署在边缘设备上的自主系统面临着重大挑战，包括资源限制、实时处理需求以及适应动态环境的能力。本文介绍了ATLASv2，这是一种新颖的系统，它集成了微调过的TinyLLM、实时对象检测和高效的路径规划，以在边缘设备Jetson Nano上实现层次化多任务导航和操作。ATLASv2通过检测和定位环境中的物体并将其保存到其内部知识库中来动态扩展其可导航的地标，以便用于未来的任务执行。我们在实际环境中评估了ATLASv2，包括一个手工制作的包含多种物体和地标的家庭和办公室设置。结果表明，ATLASv2能够有效解读自然语言指令，将其分解为低级动作，并以高成功率执行任务。通过在一个完全嵌入式框架中利用生成型AI，ATLASv2实现了优化的资源利用率，具有最小的提示延迟和电力消耗，从而弥合了模拟环境与实际应用之间的差距。

发布时间: 4/16/2025

查看原文

通过学习可观测量映射来神经网络模拟量子系统中的经典极限

作者: Kamran Majid

arXiv:2504.10781v1 Announce Type: 跨领域摘要：经典的量子力学极限，在如严格变形量纲化之类的框架下形式化地进行研究，仍然是物理学哲学中一个深刻的研究领域。本文探讨了一种计算方法，通过神经网络模拟普朗克常数 $\hbar$ 接近零时量子谐振子的经典行为的涌现。我们开发并训练了一种神经网络架构，以学习从初始期望值和 $\hbar$ 到位置期望值的时间演变的映射。通过对 $\hbar$ 各种不同范围内的网络预测进行分析，我们旨在为量子-经典过渡的本质提供计算上的见解。这项工作展示了机器学习作为探索量子力学及其经典极限的基本问题的一种补充工具的潜力。

发布时间: 4/16/2025

查看原文

受众参与的艺术：基于LLM的科学研究演讲快速判断方法

作者: Ralf Schm\"alzle, Sue Lim, Yuetong Du, Gary Bente

arXiv:2504.10768v1 宣称类型: cross 摘要：本文在科学演讲的背景下探讨了薄片切割方法——基于少量信息做出准确判断的能力。我们借鉴了非言语沟通和个性心理学的研究，表明简短的摘录片段（薄片）能够可靠地预测整体演讲质量。通过一个包含一百多场真实科学演讲的新型语料库，我们使用大型语言模型（LLMs）来评估完整演讲及其摘录片段的转录文本。通过将LLM基于的短摘录评估与完整演讲评估相关联，我们确定了准确预测所需的信息量。我们的研究结果表明，LLM基于的评估与人类评分高度一致，证明了其有效性和可靠性。关键的是，即使非常短的摘录片段（不到演讲的10％）也强烈预测整体评估。这表明演讲的第一时刻传达了相关的信息，这些信息用于质量评估，并塑造持久印象。这些发现跨越了不同的LLM和提示策略，具有稳健性。这项工作将薄片切割研究扩展到公开演讲，并将印象形成理论与LLM和当前的人工智能通信研究连接起来。我们讨论了对信息接收的沟通和社会认知研究的影响。最后，我们建议一种基于LLM的薄片切割框架作为可扩展的反馈工具，以增强人类沟通。

发布时间: 4/16/2025

查看原文

如何指令和推理数据塑造后训练过程：通过层wise梯度视角的数据质量分析

作者: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou

arXiv:2504.10766v1 公布类型: 交叉摘要：随着大型语言模型（LLMs）的后训练从指令遵循发展到复杂的推理任务，对不同数据如何影响微调动力学的理解仍基本上未被探索。在本文中，我们对低/高质量指令和推理数据对LLMs后训练引起层间梯度进行了谱分析。我们的分析揭示了广泛研究的数据评估指标，例如IFD、InsTag、难度和奖励，可以通过梯度的奇异值分解（SVD）计算出的谱属性来解释和统一。具体而言，通常高质量的数据与较低的核范数和较高的有效秩相关。值得注意的是，有效秩在捕捉微妙的质量差异方面比核范数更稳定且分辨率更高。例如，推理数据的有效秩明显高于指令数据，表明更复杂的任务具有更丰富的梯度结构。我们的实验还突显了在同一家族中的模型无论其规模如何，其梯度模式相似，而不同模型家族则表现出显著差异。提供了一种统一视角来剖析指令和推理数据质量的效果，本工作阐明了数据质量与训练稳定性的相互作用，为后训练中开发更好的数据探索策略提供了新的见解。

发布时间: 4/16/2025

查看原文