LLM2D

摘要

arXiv:2409.18997v2 宣告类型: replace-cross 摘要：宣传在塑造公众意见和推动虚假信息方面发挥着关键作用。现有研究主要集中在识别宣传技巧上，但缺乏捕捉此类内容更广泛动机及其影响的能力。为了解决这些挑战，我们引入了propainsight，这是一种基于基础社会科学研究的概念框架，该框架系统地将宣传分解为技巧、引发性诉求和潜在意图。propainsight 提供了对宣传如何在不同情境下运作的更细粒度的理解。此外，我们还介绍了propagaze，这是一种新颖的数据集，结合了人类注释的数据和通过精心设计的管道生成的高质量合成数据。我们的实验表明，现成的LLM在宣传分析方面遇到困难，但使用propagaze进行训练显著提高了性能。微调后的Llama-7B-Chat在技巧识别方面比1次训练的GPT-4-Turbo高出203.4%的文本跨度IoU，在诉求分析方面高出66.2%的BertScore。此外，propagaze在数据稀疏和跨域场景中补充了有限的人类注释数据，展示了其在全面和可泛化的宣传分析中的潜力。