LLM2D

摘要

arXiv:2504.21372v1 交叉类型: cross 摘要: 语音事件提取（SpeechEE）是一项挑战性任务，它位于自动语音识别（ASR）和自然语言处理（NLP）的交叉点，要求从口语中识别结构化的事件信息。在本文中，我们提出了一种模块化的、基于流水线的SpeechEE框架，该框架整合了高性能的ASR与语义搜索增强的大语言模型（LLMs）提示。该系统首先使用包括基于规则、BERT 和LLM 的混合筛选机制来分类可能包含事件的语音片段。然后，它利用动态增强的少量样本LLM 提示，结合语义相似性检索，来识别事件触发型并提取相应的论元。我们使用多种LLMs（Llama3-8B、GPT-4o-mini 和o1-mini）对流水线进行了评估，强调了o1-mini 的显著性能提升，该模型在事件触发分类上的F1得分为63.3%，在论元分类上的F1得分为27.8%，超过了先前的基准。我们的结果表明，在配备检索增强的LLMs 的情况下，流水线方法可以与端到端系统竞争或超越，并且保持解释性和模块性。本文为LLM驱动的事件提取提供了实用见解，并为未来结合文本和声学特征的混合模型开辟了途径。