摘要
尼泊尔语的自动文本摘要是自然语言处理 (NLP) 中一个尚未探索的领域。尽管大量的研究致力于抽取式摘要,但抽象式摘要领域,特别是针对尼泊尔语等资源匮乏的语言,仍然很大程度上未被探索。本研究探讨了使用多语言 Transformer 模型,特别是 mBART 和 mT5,通过抽象式摘要为尼泊尔新闻文章生成标题。该研究通过从多个尼泊尔新闻门户网站进行网页抓取来创建摘要数据集,从而解决了与尼泊尔语文本摘要相关的关键挑战。然后使用不同的策略对这些多语言模型进行了微调。随后使用 ROUGE 分数和人工评估来评估微调模型的性能,以确保生成的摘要连贯且传达了原文的意思。在人工评估中,参与者被要求根据相关性、流畅性、简洁性、信息量、事实准确性和覆盖范围等标准,从模型生成的摘要中选择最佳摘要。在使用 ROUGE 分数进行评估时,发现使用 LoRA 模型的 4 位量化 mBART 在生成更好的尼泊尔新闻标题方面比其他模型更有效,并且在人工评估中,它被选中的比例为 34.05%,超过了为尼泊尔新闻标题生成创建的所有其他微调模型。