LLM2D
sinhala、English和代码混合内容中的关键词提取与方面分类
Keyword Extraction, and Aspect Classification in Sinhala, English, and Code-Mixed Content
作者: F. A. Rizvi, T. Navojith, A. M. N. H. Adhikari, W. P. U. Senevirathna, Dharshana Kasthurirathna, Lakmini Abeywardhana
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10679v1

摘要

arXiv:2504.10679v1 交叉领域公告类型 摘要:银行领域的品牌声誉通过对其代码混合和多语言内容中客户意见进行深入分析来维持。传统的NLP模型在低资源语言(如僧伽罗语-英语)混合时,会错分或忽略这些文本,并且无法捕捉到领域特定的知识。本研究介绍了一种混合NLP方法,以提高银行内容的关键词提取、内容过滤和基于方面的情感分类。英语关键词采用混合方法进行提取,该方法结合了微调后的SpaCy命名实体识别模型、基于FinBERT的KeyBERT嵌入、YAKE和EmbedRank,最终实现了91.2%的准确率。僧伽罗语关键词和代码混合关键词使用结合了领域特定僧伽罗语金融词汇的微调后的XLM-RoBERTa模型进行提取,准确率达到了87.4%。为确保数据质量,使用了多种模型进行无关评论过滤,其中BERT-base-uncased模型在英语中实现了85.2%的准确率,XLM-RoBERTa模型在僧伽罗语中实现了88.1%的准确率,优于GPT-4o、SVM和基于关键词的过滤方法。方面分类遵循相同模式,BERT-base-uncased模型在英语中实现了87.4%的准确率,XLM-RoBERTa模型在僧伽罗语中实现了85.9%的准确率,均超过了GPT-4和基于关键词的方法。这些发现证实,微调后的变换器模型在多语言金融文本分析中优于传统方法。目前提出的框架为代码混合和低资源银行环境中品牌声誉监控提供了一种准确且可扩展的解决方案。