摘要
arXiv:2504.03295v1 Announce Type: cross
摘要:提出支持特定主题多样化或有争议立场的陈述对于允许用户表达、重塑政治 discourse 和推动社会批判与信息传播的平台至关重要。随着大型语言模型(LLMs)的发展,针对特定立场的可控文本生成已成为一个充满潜力的研究领域,其应用包括塑造公众意见和商业营销。然而,当前的数据集往往仅专注于纯文本,缺少多模态内容和有效的上下文,特别是在立场检测的背景下。本文正式提出了并研究了一个新的问题,即推特上带有文本和图像的立场驱动可控内容生成问题。在这个问题中,给定一个多模态帖子(文本和图像/视频),模型生成一个立场控制的回应。为此,我们创建了多模态立场生成数据集(StanceGen2024),这是第一个专门为政治 discourse 中的多模态立场可控文本生成设计的资源。它包含来自2024年美国总统选举的帖子和用户评论,包含文本、图片、视频和立场标注,以探索多模态政治内容如何影响立场表达。此外,我们提出了一个基于权重融合的多模态生成(SDMG)框架,该框架结合了多模态特征的加权融合和立场指导,以提高语义一致性和立场控制。我们发布了该数据集和代码(https://anonymous.4open.science/r/StanceGen-BE9D),供公众使用和进一步研究。