LLM2D
控制领土和冲突跟踪 (CONTACT): 从开源情报绘制被占领土的(地理)映射
Controlled Territory and Conflict Tracking (CONTACT): (Geo-)Mapping Occupied Territory from Open Source Intelligence
作者: Paul K. Mandal, Cole Leo, Connor Hurley
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13730v1

摘要

arXiv:2504.13730v1 类型:跨域 摘要:开源情报提供了大量未结构化的文本数据,可以用于评估领土控制情况。我们介绍了CONTACT,一个使用大规模语言模型(LLMs)和最少监督的领土控制预测框架。我们评估了两种方法:基于嵌入的少量样本分类器SetFit,以及应用于BLOOMZ-560m的提示调优方法,BLOOMZ-560m是一个多语言生成型LLM。我们的模型是在包括叙利亚和伊拉克的ISIS活动的小型手标注新闻文章数据集上训练的,使用基于提示的提取控制相关信号,如军事行动、伤亡情况和地理位置参考。我们展示了基于BLOOMZ的模型优于SetFit基线,并且基于提示的监督在资源有限的环境中提高了泛化能力。CONTACT展示了使用少量样本方法微调的LLMs如何减少标注负担,并支持从开源情报(OSINT)流中的开放性数据中进行结构化推理。我们的代码在https://github.com/PaulKMandal/CONTACT/ 可用。