摘要
arXiv:2504.21372v1 交叉类型: cross
摘要: 语音事件提取(SpeechEE)是一项挑战性任务,它位于自动语音识别(ASR)和自然语言处理(NLP)的交叉点,要求从口语中识别结构化的事件信息。在本文中,我们提出了一种模块化的、基于流水线的SpeechEE框架,该框架整合了高性能的ASR与语义搜索增强的大语言模型(LLMs)提示。该系统首先使用包括基于规则、BERT 和LLM 的混合筛选机制来分类可能包含事件的语音片段。然后,它利用动态增强的少量样本LLM 提示,结合语义相似性检索,来识别事件触发型并提取相应的论元。我们使用多种LLMs(Llama3-8B、GPT-4o-mini 和o1-mini)对流水线进行了评估,强调了o1-mini 的显著性能提升,该模型在事件触发分类上的F1得分为63.3%,在论元分类上的F1得分为27.8%,超过了先前的基准。我们的结果表明,在配备检索增强的LLMs 的情况下,流水线方法可以与端到端系统竞争或超越,并且保持解释性和模块性。本文为LLM驱动的事件提取提供了实用见解,并为未来结合文本和声学特征的混合模型开辟了途径。