LLM2D
越南社交媒体机器词法规范化弱监督数据标注框架
A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media
作者: Dung Ha Nguyen, Anh Thi Hoang Nguyen, Kiet Van Nguyen
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20467v1

摘要

本研究提出了一种创新的自动标注框架,旨在解决越南语等低资源语言的社交媒体文本词汇规范化难题。社交媒体数据丰富多样,但其语境中不断变化的语言形式使得人工标注费时费力。为了解决这些问题,我们提出了一个将半监督学习与弱监督技术相结合的框架。这种方法在最大限度地减少人工标注工作的同时,提高了训练数据集的质量并扩大了其规模。我们的框架自动标注原始数据,将非标准词汇转换为标准形式,从而提高训练数据的准确性和一致性。实验结果表明,我们的弱监督框架在越南语文本规范化方面非常有效,尤其是在使用预训练语言模型的情况下。该框架取得了令人印象深刻的 F1 分数(82.72%),并保持了高达 99.22% 的词汇完整性。此外,它还能够有效地处理各种条件下的无音调文本。该框架显著提高了自然语言规范化质量,并提高了各种 NLP 任务的准确性,平均准确率提高了 1-3%。