LLM2D
FinAudio:金融应用中音频大规模语言模型的基准测试
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
作者: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.20990v1

摘要

arXiv:2503.20990v1 类型:cross 摘要:音频大型语言模型(AudioLLMs)已受到广泛关注,并在对话、音频理解以及自动语音识别(ASR)等音频任务中显著提高了性能。尽管取得了这些进步,但在金融场景中评估音频大型语言模型的标准却缺失,而在金融分析和投资决策中,音频数据(如收益电话会议和CEO演讲)是至关重要的资源。本文介绍了 \textsc{FinAudio},这是首个专为评估音频大型语言模型在金融领域的性能而设计的基准。我们首先基于金融领域的独特特点定义了三个任务:1) 短金融音频的ASR,2) 长金融音频的ASR,3) 长金融音频的总结。然后,我们分别策展了两个短音频和两个长音频数据集,并为金融音频总结开发了一个新的数据集,包含 \textsc{FinAudio} 基准。随后,我们在 \textsc{FinAudio} 上评估了七种流行的音频大型语言模型。我们的评估揭示了现有音频大型语言模型在金融领域中的局限性,并为改进音频大型语言模型提供了见解。所有数据集和代码都将公开发布。