摘要
将文本分割成句子是许多自然语言处理系统中的一个早期且至关重要的步骤。这通常是通过使用基于规则或统计的方法来实现的,这些方法依赖于诸如标点符号之类的词汇特征。尽管最近的一些工作不再完全依赖于标点符号,但我们发现,之前的方法都没有实现以下所有目标:(i)对缺少标点符号的鲁棒性,(ii)对新领域的有效适应性,以及(iii)高效率。我们引入了一个新的模型——Segment any Text (SaT)——来解决这个问题。为了增强鲁棒性,我们提出了一种新的预训练方案,该方案确保了对标点符号的依赖性降低。为了解决适应性问题,我们引入了参数高效微调的额外阶段,在歌词和法律文件等不同领域建立了最先进的性能。在此过程中,我们引入了架构修改,从而使速度比以前的最先进技术提高了三倍,并解决了对未来远距离上下文的虚假依赖问题。最后,我们引入了一个模型变体,该变体在多样化的、多语言的句子分割数据的混合数据集上进行了微调,作为现有分割工具的即插即用替换和增强。总的来说,我们的贡献为分割任何文本提供了一种通用的方法。我们的方法在跨越不同领域和语言的 8 个语料库中优于所有基线(包括强大的大型语言模型),特别是在文本格式不佳的实际应用场景中。我们的模型和代码(包括文档)在 https://github.com/segment-any-text/wtpsplit 下以 MIT 许可证发布。