LLM2D

摘要

arXiv:2501.18766v1 交叉公告类型摘要：数字舞台的迅速发展极大地加剧了假数据的分散，侵蚀了社会中的确定性和判断力，尤其是在孟加拉语使用者社区中。我们对该关键问题的关注通过提出一种有趣的战略得以体现，该战略利用了深度学习创新，尤其是门控重复单元（GRU），来识别孟加拉方言中的假新闻。我们提出的策略包含了详细的信息预处理，包括词干化、分词和通过过采样处理不规则性。这产生了一个包含58,478段文本的数据集。我们基于GRU（门控重复单元）创建了一个示例，其执行效果显著，精度率高达94%。该研究对数据规划方法、模型选择、培训和评估其性能进行了详尽阐述。模型的性能通过精确度、召回率、F1分数和准确性等可靠指标进行了评估。该工作的贡献包括在孟加拉语中建立一个大型假新闻数据集以及一个优于其他孟加拉语假新闻定位模型的演示。