LLM2D

摘要

句法分析是自然语言处理中必不可少的环节，其中成分结构是广泛使用的语法描述方式之一。传统的成分结构观认为成分由相邻的词语组成，但这给分析具有非局部依赖关系的语法带来了挑战，这种现象在德语等语言中很常见。因此，在德语的 NeGra 和 TIGER 以及英语的 DPTB 等许多树库中，长距离依赖关系由交叉边表示。各种语法形式主义被用来描述不连续树，但这些形式主义通常在解析时具有很高的时间复杂度。基于转换的解析旨在通过消除对显式语法的需求来降低这一因素。相反，神经网络在大型标注语料库上使用监督学习，根据原始文本输入来训练生成树。Coavoux 和 Cohen (2019) 提出的一个关于无栈基于转换的解析器的优雅方案成功地允许在最坏情况下二次时间内推导出句子上的任何不连续成分树。这项工作的目的是探索将超级标签信息引入基于转换的不连续成分解析。在像 CCG (Steedman, 1989) 这样的词汇化语法形式主义中，信息丰富的类别被分配给句子中的词语，并作为构建句子语法的基础。这些超级标签指示词语的结构作用以及与周围词语的句法关系。该研究考察了通过使用专用超级标签器作为神经解析器（管道）的额外输入，以及通过联合训练用于解析和超级标签的神经模型（多任务），来整合超级标签信息。除了 CCG 之外，还将比较其他几个框架（LTAG-spinal，LCFRS）和序列标注任务（分块，依存句法分析），以评估它们作为解析辅助任务的适用性。