LLM2D

摘要

arXiv:2504.13730v1 类型:跨域摘要:开源情报提供了大量未结构化的文本数据，可以用于评估领土控制情况。我们介绍了CONTACT，一个使用大规模语言模型（LLMs）和最少监督的领土控制预测框架。我们评估了两种方法：基于嵌入的少量样本分类器SetFit，以及应用于BLOOMZ-560m的提示调优方法，BLOOMZ-560m是一个多语言生成型LLM。我们的模型是在包括叙利亚和伊拉克的ISIS活动的小型手标注新闻文章数据集上训练的，使用基于提示的提取控制相关信号，如军事行动、伤亡情况和地理位置参考。我们展示了基于BLOOMZ的模型优于SetFit基线，并且基于提示的监督在资源有限的环境中提高了泛化能力。CONTACT展示了使用少量样本方法微调的LLMs如何减少标注负担，并支持从开源情报（OSINT）流中的开放性数据中进行结构化推理。我们的代码在https://github.com/PaulKMandal/CONTACT/ 可用。