摘要
本研究旨在解决推文/用户地理位置预测任务,并为文本大数据地理标记提供一种灵活的方法。该方法利用神经网络进行自然语言处理 (NLP),以坐标对(经度、纬度)和二维高斯混合模型 (GMM) 来估计位置。所提出的模型已在 Twitter 数据集上进行了微调,并使用预训练的双向编码器表示Transformer (BERT) 作为基础模型。性能指标显示,在全球范围内,模型在推文内容和元数据上下文的文本特征上进行训练和评估后,中位误差小于 30 公里;在美国数据集上,中位误差小于 15 公里。我们的源代码和数据可在 https://github.com/K4TEL/geo-twitter.git 获取。