LLM2D

摘要

arXiv:2306.00037v5 宣布类型: replace-cross 摘要：作为最受欢迎的社会网络之一，Twitter 提供了一个沟通和在线讨论的平台。不幸的是，它也成为了机器人和虚假账号的目标，导致虚假信息的传播和操纵。本文介绍了一种半自动机器学习管道（SAMLP），旨在应对机器学习模型开发过程中遇到的挑战。通过这一管道，我们基于用户资料特征开发了一个全面的机器人检测模型，命名为BotArtist。SAMLP 利用了九个不同的公开可用数据集来训练 BotArtist 模型。为了评估 BotArtist 的性能，并将其与当前最先进的解决方案进行对比，我们评估了 35 种现有的 Twitter 机器人检测方法，每种方法都利用了多样化的特点。在九个公共数据集的标准条件下进行的比较评估显示，所提出模型在 F1 分数方面比现有解决方案高出几乎 10%，在特定和通用方法方面的平均得分为 83.19% 和 68.5%。作为这项研究的结果，我们提供了一个最大的标注过的 Twitter 机器人数据集。该数据集包含了来自 Twitter API 在 2022 年俄罗斯-乌克兰战争期间收集的 10,929,533 个 Twitter 用户资料的提取特征以及 BotArtist 的预测结果。数据集是基于 [Shevtsov et al., 2022a]，原始作者在此分享了讨论俄罗斯-乌克兰战争的匿名推文，总计 127,275,386 条推文。结合现有的文本数据集和提供的已标注的机器人和人类资料，将有助于后 Twitter API 时代更先进的机器人检测大规模语言模型的发展。