LLM2D

摘要

arXiv:2504.03295v1 Announce Type: cross 摘要：提出支持特定主题多样化或有争议立场的陈述对于允许用户表达、重塑政治 discourse 和推动社会批判与信息传播的平台至关重要。随着大型语言模型（LLMs）的发展，针对特定立场的可控文本生成已成为一个充满潜力的研究领域，其应用包括塑造公众意见和商业营销。然而，当前的数据集往往仅专注于纯文本，缺少多模态内容和有效的上下文，特别是在立场检测的背景下。本文正式提出了并研究了一个新的问题，即推特上带有文本和图像的立场驱动可控内容生成问题。在这个问题中，给定一个多模态帖子（文本和图像/视频），模型生成一个立场控制的回应。为此，我们创建了多模态立场生成数据集（StanceGen2024），这是第一个专门为政治 discourse 中的多模态立场可控文本生成设计的资源。它包含来自2024年美国总统选举的帖子和用户评论，包含文本、图片、视频和立场标注，以探索多模态政治内容如何影响立场表达。此外，我们提出了一个基于权重融合的多模态生成（SDMG）框架，该框架结合了多模态特征的加权融合和立场指导，以提高语义一致性和立场控制。我们发布了该数据集和代码（https://anonymous.4open.science/r/StanceGen-BE9D），供公众使用和进一步研究。