LLM2D
PoPreRo:一个用于预测罗马尼亚Reddit帖子受欢迎程度的新数据集
PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts
作者: Ana-Cristina Rogoz, Maria Ilinca Nechita, Radu Tudor Ionescu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2407.04541v2

摘要

我们引入了PoPreRo,这是第一个从Reddit收集的罗马尼亚帖子流行度预测数据集。PoPreRo数据集包含来自罗马尼亚五个不同子reddits的各种帖子样本,共有28,107个数据样本。除了我们新颖的数据集之外,我们还引入了一套竞争性模型作为未来研究的基准。有趣的是,在测试集上,得分最高的模型达到了61.35%的准确率和60.60%的宏观F1分数,这表明PoPreRo上的流行度预测任务非常具有挑战性。基于对Falcon-7B大型语言模型的小样本提示的进一步研究也指向了同样的方向。因此,我们相信PoPreRo是一个宝贵的资源,可用于评估预测罗马尼亚社交媒体帖子流行度的模型。我们已在https://github.com/ana-rogoz/PoPreRo发布了我们的数据集。