LLM2D

摘要

本研究旨在解决推文/用户地理位置预测任务，并为文本大数据地理标记提供一种灵活的方法。该方法利用神经网络进行自然语言处理 (NLP)，以坐标对（经度、纬度）和二维高斯混合模型 (GMM) 来估计位置。所提出的模型已在 Twitter 数据集上进行了微调，并使用预训练的双向编码器表示Transformer (BERT) 作为基础模型。性能指标显示，在全球范围内，模型在推文内容和元数据上下文的文本特征上进行训练和评估后，中位误差小于 30 公里；在美国数据集上，中位误差小于 15 公里。我们的源代码和数据可在 https://github.com/K4TEL/geo-twitter.git 获取。