LLM2D

摘要

生成模型在自然语言处理 (NLP) 中获得了显著的突出地位，尤其是在处理对长文本序列进行建模和评估的复杂任务方面。这项任务对于推进各种下游应用至关重要，例如文本生成和机器翻译。最近利用随机过程来捕获序列内在动态的方法在生成模型方面展现出优异的性能。然而，从文本数据集中准确编码时间和结构依赖关系，以及利用这种编码信息进行序列评估，仍然是一个开放的研究领域。在本文中，我们提出了一种学习长文本序列随机动态的新方法，利用基于负对数似然的编码器，其性能优于对比学习方法。我们还介绍了一种基于似然的长文本评估指标，用于衡量序列一致性，可应用于下游任务，如人机区分。我们的编码器有效地保留了序列一致性，并在域外数据集上表现出稳健性。此外，所提出的评估指标全面地捕获了时间和结构信息。理论分析证明了我们的指标在序列评估中的优越性，实验结果突出了其灵活性以及在各种任务中的出色性能，展示了其在各种 NLP 应用中的实用性。