摘要
arXiv:2504.13730v1 类型:跨域
摘要:开源情报提供了大量未结构化的文本数据,可以用于评估领土控制情况。我们介绍了CONTACT,一个使用大规模语言模型(LLMs)和最少监督的领土控制预测框架。我们评估了两种方法:基于嵌入的少量样本分类器SetFit,以及应用于BLOOMZ-560m的提示调优方法,BLOOMZ-560m是一个多语言生成型LLM。我们的模型是在包括叙利亚和伊拉克的ISIS活动的小型手标注新闻文章数据集上训练的,使用基于提示的提取控制相关信号,如军事行动、伤亡情况和地理位置参考。我们展示了基于BLOOMZ的模型优于SetFit基线,并且基于提示的监督在资源有限的环境中提高了泛化能力。CONTACT展示了使用少量样本方法微调的LLMs如何减少标注负担,并支持从开源情报(OSINT)流中的开放性数据中进行结构化推理。我们的代码在https://github.com/PaulKMandal/CONTACT/ 可用。