LLM2D
基于定制数据的Transformer模型在推文地理位置预测中的应用
Predicting the Geolocation of Tweets Using transformer models on Customized Data
作者: Kateryna Lutsai, Christoph H. Lampert
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2303.07865v5

摘要

本研究旨在解决推文/用户地理位置预测任务,并为文本大数据地理标记提供一种灵活的方法。该方法利用神经网络进行自然语言处理 (NLP),以坐标对(经度、纬度)和二维高斯混合模型 (GMM) 来估计位置。所提出的模型已在 Twitter 数据集上进行了微调,并使用预训练的双向编码器表示Transformer (BERT) 作为基础模型。性能指标显示,在全球范围内,模型在推文内容和元数据上下文的文本特征上进行训练和评估后,中位误差小于 30 公里;在美国数据集上,中位误差小于 15 公里。我们的源代码和数据可在 https://github.com/K4TEL/geo-twitter.git 获取。