LLM2D

摘要

arXiv:2503.20990v1 类型：cross 摘要：音频大型语言模型（AudioLLMs）已受到广泛关注，并在对话、音频理解以及自动语音识别（ASR）等音频任务中显著提高了性能。尽管取得了这些进步，但在金融场景中评估音频大型语言模型的标准却缺失，而在金融分析和投资决策中，音频数据（如收益电话会议和CEO演讲）是至关重要的资源。本文介绍了 \textsc{FinAudio}，这是首个专为评估音频大型语言模型在金融领域的性能而设计的基准。我们首先基于金融领域的独特特点定义了三个任务：1) 短金融音频的ASR，2) 长金融音频的ASR，3) 长金融音频的总结。然后，我们分别策展了两个短音频和两个长音频数据集，并为金融音频总结开发了一个新的数据集，包含 \textsc{FinAudio} 基准。随后，我们在 \textsc{FinAudio} 上评估了七种流行的音频大型语言模型。我们的评估揭示了现有音频大型语言模型在金融领域中的局限性，并为改进音频大型语言模型提供了见解。所有数据集和代码都将公开发布。