摘要
arXiv:2504.03622v1 类型: cross
摘要:生成长且连贯的文本仍然是大型语言模型(LLMs)面临的挑战,因为它们在话语生成中缺乏层次规划和结构化组织。我们引入了结构对齐(Structural Alignment),这是一种新颖的方法,通过将LLMs与人类似的话语结构对齐来增强长文本生成。通过将基于语言学的话语框架整合到强化学习中,我们的方法指导模型生成连贯且井然有序的输出。我们在Proximal Policy Optimization框架中采用了密集奖励方案,基于话语与人类写作的差异性分配细粒度的标记级别奖励。我们评估了两种互补的奖励模型:第一个通过评分表面级文本特征来提高可读性,提供显式的结构化,而第二个通过分析通过层次话语动机的全局话语模式来强化更深的连贯性和修辞 sophistication,能够在诸如文章生成和长文档摘要等任务中优于标准模型和RLHF增强模型。所有训练数据和代码将在 https://github.com/minnesotanlp/struct_align 公开共享。