LLM2D

摘要

arXiv:2504.08102v1 宣告类型: cross 摘要: 鉴于假新闻在社交媒体上传播速度和规模之大，自动检测假新闻已成为一项极其重要的任务。然而，这一任务面临着诸多挑战，包括提取包含假新闻相关信息的文本特征。关于假新闻检测的研究表明，没有任何一种特征提取技术能够在所有场景中始终优于其他方法。尽管如此，不同的特征提取技术可以提供互补的信息，并且能够使文本数据的表示更为全面。本文提出使用多视图自动编码器来生成假新闻检测的联合特征表示，通过整合文献中常用的几种特征提取技术。在假新闻数据集上的实验结果显示，这种方法的分类性能明显优于单独的视图（特征表示）。我们还观察到，选择部分视图而非将所有视图组合成一个潜在空间，从准确性和计算成本角度来看，可能更为有利。更多细节，包括源代码、图表和数据集，请参阅项目的仓库：https://github.com/ingrydpereira/multiview-fake-news。