摘要
arXiv:2504.08281v1 交叉发布公告类型
摘要:情绪感知语言处理的进步正在逐步重塑来自对话AI和情感计算到计算心理学和创意内容生成等至关重要的NLP应用。现有的情绪数据集要么缺乏情绪细腻度,要么无法捕捉必要的风格多样性,限制了有效情绪条件下的文本生成系统的进步。为了弥合同等化细腻度和风格多样性之间的这一关键缺口,本文介绍了一种新型系统构建数据集,名为ELSA情绪和语言风格对齐数据集,利用来自现有来源如dair ai情绪数据集和GoEmotions分类法的细腻情绪分类法。该数据集包含通过先进的大规模语言模型(LLM)在不同的语境风格(如对话、正式、诗歌和叙述)中重新生成的原始句子的多种情绪精细变化版本。使用诸如困惑度、嵌入方差、可读性、词汇多样性以及语义连贯性等严格计算评估指标,验证了数据集的情感真实性、语言流畅性和文本多样性。全面的指标分析证实了其支持对情绪条件下的样式适应性文本生成进行更深入探索的潜力。通过提供精确调整的情绪细腻语言建模能力,我们的数据集为涉及LLM的情感精细控制、提示驱动解释、可解释性以及样式适应性表达性语言生成的研究奠定了基础。