LLM2D

摘要

本研究提出了一种创新的自动标注框架，旨在解决越南语等低资源语言的社交媒体文本词汇规范化难题。社交媒体数据丰富多样，但其语境中不断变化的语言形式使得人工标注费时费力。为了解决这些问题，我们提出了一个将半监督学习与弱监督技术相结合的框架。这种方法在最大限度地减少人工标注工作的同时，提高了训练数据集的质量并扩大了其规模。我们的框架自动标注原始数据，将非标准词汇转换为标准形式，从而提高训练数据的准确性和一致性。实验结果表明，我们的弱监督框架在越南语文本规范化方面非常有效，尤其是在使用预训练语言模型的情况下。该框架取得了令人印象深刻的 F1 分数（82.72%），并保持了高达 99.22% 的词汇完整性。此外，它还能够有效地处理各种条件下的无音调文本。该框架显著提高了自然语言规范化质量，并提高了各种 NLP 任务的准确性，平均准确率提高了 1-3%。