arXiv 论文列表

作者: Vikramjit Mitra, Amrit Romana, Dung T. Tran, Erdrin Azemi

arXiv:2503.22711v1 类别：交叉学科摘要：自发语音情感数据通常包含感知等级，在这些等级中，评分者在听完语音文件后为其分配情感分数。这种感知等级由于评分者意见的差异，带来了标签的不确定性。通过使用共识等级作为ground truth来解决评分者差异，其中选择获得最高投票的情感。共识等级未能考虑到那些可能包含多种情感的语音样本的模糊实例，这些实例通过评分者的意见不确定性被捕捉到。我们展示了将情感等级的概率密度函数作为目标，而不是通常使用的共识等级，相比于文献中报告的结果，在基准评估集上提供了更好的性能。我们证明，基于显著性驱动的基础模型（FM）的表示选择有助于训练最新的语音情感模型，用于情感维度识别和情感类别识别。通过对不同FM获得的表示进行比较，我们观察到，关注整体测试集性能可能是误导性的，因为它无法揭示模型在说话人和性别方面的泛化能力。我们证明，在多个测试集上的性能评估以及在性别和说话人方面进行的性能分析，对于评估情感模型的实用性是有用的。最后，我们展示了标签不确定性和数据偏差对模型评估构成挑战，与其使用最佳假设，考虑前2个或3个假设是有益的。

发布时间: 4/1/2025

查看原文

基于MIMIC-IV通过局部数据验证急诊住院预测

作者: Francesca Meimeti, Loukas Triantafyllopoulos, Aikaterini Sakagianni, Vasileios Kaldis, Lazaros Tzelves, Nikolaos Theodorakis, Evgenia Paxinou, Georgios Feretzakis, Dimitris Kalles, Vassilios S. Verykios

arXiv:2503.22706v1 交叉公告类型: 摘要：有效地管理急诊部门（ED）的过度拥挤对于改善患者结果并优化健康资源分配至关重要。本研究通过利用全面的MIMIC-IV数据集，验证了最初使用希腊医院小型本地数据集开发的住院预测模型。在预处理MIMIC-IV数据后，评估了五种算法：线性判别分析（LDA）、K-最近邻（KNN）、随机森林（RF）、递归分区和回归树（RPART）以及支持向量机（SVM径向基）。在这五种算法中，RF表现出最佳性能，在应用于MIMIC-IV数据时，其受试者操作特征曲线下面积（AUC-ROC）为0.9999，灵敏度为0.9997，特异度为0.9999。这些发现突显了RF在处理复杂数据集以进行住院预测方面的稳健性，确立了MIMIC-IV作为验证基于较小本地数据集的模型的重要基准，提供了改善急诊部门管理策略的实用洞察。

发布时间: 4/1/2025

查看原文

通过AI驱动的应用增强非母语者的语音识别和发音能力

作者: Georgios P. Georgiou

arXiv:2503.22705v1 交叉公告类型：cross 摘要：虽然通过各种应用利用人工智能（AI）来增强外语发音的研究正在扩展，但这些研究主要集中在清晰度和可懂度方面，很大程度上忽视了提高非母语者的语音发音感知和生产中的个别语音音素。本研究旨在通过检查利用AI增强移动应用进行训练对非母语者语音音素感知和生产的影响来弥补这一空白。参与者完成了前测，评估他们区分英语第二语言“heed”和“hid”对比能力，并在句子环境中产生这些元音。干预措施涉及使用Speakometer移动应用进行训练，该应用包含了英语元音的录音任务，同时提供了发音反馈和练习。后测与前测相似，以衡量表现的变化。结果表明，在干预后，参与者的区分准确度和目标对比的发音有了显著提高。然而，参与者并未达到母语者的水平。这些发现突显了AI增强应用在促进语音习得方面的效果，并支持其用于个性化、互动发音训练的潜在应用，而不仅仅局限于课堂教学。

发布时间: 4/1/2025

查看原文

从眼到脑：脑-文本解码揭示了视觉语义处理的神经机制

作者: Feihan Feng, Jingxin Nie

arXiv:2503.22697v1 类型: cross 摘要: 解释神经机制如何将感觉体验转化为有意义的语义表示是认知神经科学中的一个基本挑战。虽然神经成像已经描绘出一个分布式的语义网络，但语义内容的格式及其神经编码仍然未知，尤其是在针对复杂且自然刺激时。传统的脑解码主要集中在视觉重建上，这主要捕捉低级感知特征，而忽略了指导人类认知的更深层次的语义核心。在这里，我们通过直接将fMRI信号解码为所观看自然图像的文本描述，引入了一个范式的转变。我们的新型深度学习模型，在没有视觉输入的情况下进行训练，实现了最先进的语义解码性能，生成有意义的标题，捕捉复杂场景的核心语义内容。神经解剖学分析揭示了较高层次的视觉区域，包括MT+、背侧视觉皮层和下顶叶皮层，在这一语义转化中的关键作用。类别特异性解码进一步表明了对于语义维度如有无生命和运动的复杂的神经表示。基于文本的解码方法为我们提供了一个比视觉重建更直接和可解释的窗口，深入理解大脑的语义编码，并提供了探索复杂语义处理神经基础的强大新方法，有助于深化对分布式语义网络的理解，并可能启发受脑启发的语言模型。

发布时间: 4/1/2025

查看原文

连接语言模型与财务分析

作者: Alejandro Lopez-Lira, Jihoon Kwon, Sangwoon Yoon, Jy-yong Sohn, Chanyeol Choi

arXiv:2503.22693v1 类型: cross 摘要：大型语言模型（LLMs）的迅速发展在自然语言处理领域尤其是金融领域解锁了转型性的可能性。金融数据经常被嵌入到复杂的关系中，涉及文本内容、数字表格和视觉图表，这给传统方法带来了挑战。然而，LLMs 的出现提供了新的途径，可以更高效和深入地处理和分析这种多维度的数据。尽管在LLM研究创新方面进展迅速，但在金融行业中其实际应用仍然存在显著差距，谨慎的集成和长期验证是优先考虑的。这种差距导致了新兴LLM技术的较慢实施，尽管它们在金融应用中的潜力巨大。因此，许多最新的LLM技术在该领域仍处于未被充分利用或未充分探索的状态。本文旨在通过提供近期LLM研究进展的全面概述，并探讨其在金融领域的应用性来弥补这一差距。基于之前的研究综述文献，我们强调了几种新的LLM方法论，探讨了它们的独特能力和其在金融数据分析中的潜在相关性。通过综合来自广泛研究的见解，本文旨在为研究人员和从业者提供有价值的资源，指引有潜力的研究路径，并概述未来促进LLM在金融中的应用机会。

发布时间: 4/1/2025

查看原文

增强航空通信转录：使用LoRA fine-tune Distil-Whisper

作者: Shokoufeh Mirzaei, Jesse Arzate, Yukti Vijay

arXiv:2503.22692v1 宣传类型：交叉摘要：航空通信的转录具有多种应用，从协助空中交通管制员识别回话错误的准确性到搜救行动。最近的人工智能进步为改善航空通信转录任务提供了前所未有的机会。OpenAI的Whisper是领先的自动语音识别模型之一。然而，将Whisper微调以适应航空通信转录并不具有计算效率。因此，本文旨在使用参数高效微调方法Low-Rank Adaptation来微调一个更为计算高效的Whisper版本，即distil-Whisper。为了进行微调，我们使用了Linguistic Data Consortium提供的Air Traffic Control Corpus数据集，该数据集包含约70小时的三个主要美国机场附近的管制员和飞行员的通信传输。目标是降低单词错误率，以提高航空通信转录的准确性。首先，我们从LoRA的初始超参数集（Alpha = 64 和 Rank = 32）开始进行网格搜索。我们应用5折交叉验证来找到distil-Whisper超参数的最佳组合。然后，我们在LoRA超参数上微调了模型，在五折中的平均单词错误率为3.86%。这一结果突显了该模型在驾驶舱中的潜在应用价值。

发布时间: 4/1/2025

查看原文

Qieemo: 说话即在对话情感识别中一切所需

作者: Jinming Chen, Jingyi Fang, Yuanzhong Zheng, Yaoxuan Wang, Haojun Fei

arXiv:2503.22687v1 Announce Type: 多模态摘要：情绪识别在智能人机交互系统中起着关键作用。多模态方法得益于多种模态数据的融合，从而提高识别准确性。然而，高质量多模态数据的缺乏以及不同模态之间最优对齐的挑战极大地限制了多模态方法的改进潜力。在本文中，提出的Qieemo框架有效地利用了预训练的自动语音识别(ASR)模型骨干，该骨干包含了自然对齐的文字和情绪特征，仅基于音频模态实现精确的情绪分类。此外，我们设计了多模态融合（MMF）模块和跨模态注意力（CMA）模块，以融合ASR编码器提取的音素后验图（PPG）和情绪特征，从而提高识别准确性。在IEMOCAP数据集上的实验结果表明，Qieemo分别在单模态、多模态和自监督模型上取得了绝对提高，分别为3.0%、1.2%和1.9%。

发布时间: 4/1/2025

查看原文

使用独立和混合机器及深度学习模型的物联网二分类和多分类入侵检测

作者: Md Ahnaf Akif

arXiv:2503.22684v1 交叉类型公告摘要：维护物联网系统的安全性取决于入侵检测，因为这些网络对网络攻击的敏感性正在增加。基于IoT23数据集，本研究探讨了使用多种机器学习（ML）和深度学习（DL）以及混合模型进行二分类和多分类入侵检测的应用。单独使用的机器学习和深度学习模型包括随机森林（RF）、极端梯度提升（XGBoost）、人工神经网络（ANN）、K-最近邻（KNN）、支持向量机（SVM）和卷积神经网络（CNN）。此外，通过结合机器学习技术创建了两个混合模型：RF、XGBoost、AdaBoost、KNN和SVM，并且这些混合模型是基于投票的混合分类器。其中一个是用于二分类，另一个用于多分类。这些模型使用精度、召回率、准确率和F1分数标准进行了测试，并比较了每个模型的性能。本文详细解释了混合、独立的机器学习和深度学习技术如何在准确性和可扩展性方面改进物联网（IoT）中的入侵检测系统（IDS）。

发布时间: 4/1/2025

查看原文

SPDZCoder：结合专家知识与LLMs生成隐私计算代码

作者: Xiaoning Dong, Peilin Xin, Jia Li, Wei Xu

arXiv:2501.00363v2 公告类型: 交叉摘要：隐私计算受到越来越多的关注，但由于可用的库函数有限，开发人员在编写隐私计算代码时仍然面临挑战，需要从头实现功能，且数据无意识的要求与程序员的直观思维和通常的编程实践相矛盾。利用大规模语言模型自动化生成隐私计算代码可以简化开发工作，并降低使用隐私计算框架的门槛。然而，现有的语言模型在将代码转换为隐私保护计算方面仍然面临挑战，例如将Python代码转换为MP-SPDZ代码，因为用于有效预训练或微调的MP-SPDZ数据稀缺。此外，缺乏基准进一步复杂化了转换质量的评估。为了解决这些限制，本文提出了SPDZCoder，这是一种基于规则的框架，将大型语言模型与专家知识结合，以生成无需额外训练数据的隐私计算代码。具体而言，SPDZCoder采用严格的流程来收集高质量的专家知识，以表示Python和MP-SPDZ之间的语义表达差异，并基于这些知识推导出将Python转换为MP-SPDZ的转换规则。然后，SPDZCoder通过使用三阶段管道中的转换规则逐步将Python代码转换为MP-SPDZ代码。为了评估SPDZCoder，我们亲手构建了一个基准数据集SPDZEval，其中包括六个数据分割，每个都代表MP-SPDZ实现中一类不同的具有挑战性的任务。广泛的实验表明，SPDZCoder在pass@1和pass@2方面表现优异，显著超过了基线。具体而言，SPDZCoder在pass@1和pass@2方面的总体正确性分别为85.94%和92.01%，而最好的基线分别为63.58%和76.36%。

发布时间: 4/1/2025

查看原文

RIG: 结合推理和想象的端到端通用策略

作者: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen

arXiv:2503.24388v1 声明类型: 新摘要: 在复杂開放環境中運行的體現代理需要在行動前進行推理並想象可能結果（即世界模型）。然而，先前的工作要么仅在一个端到端代理中结合这些能力之一，要么将多个专门模型整合到代理系统中，这限制了政策的学习效率和泛化能力。因此，本文首次尝试在端到端的通用代理中结合推理和想象，称为RIG。为了以端到端的方式训练RIG，我们构建了一个数据管道，逐步整合和丰富从现有代理收集的轨迹中推理和想象的内容。推理和下一张图像生成的联合学习明确地建模了推理、行动和环境动力学之间的内在关联，从而在与先前工作相比的样本效率和泛化方面表现出超过17倍的改进。在推理过程中，RIG首先推理出下一步行动，生成潜在行动，然后预测行动结果，这为代理提供了在采取实际行动前基于想象进行回顾和自我纠正的机会。实验结果表明，推理和想象的结合不仅提高了通用策略的健壮性、泛化能力和互操作性，还使测试时的扩展能够提高总体性能。

发布时间: 4/1/2025

查看原文