摘要
arXiv:2501.09982v2 Announce Type: replace-cross
摘要:文本到视频生成模型取得了显著进展,但在生成具有复杂特征的视频方面仍然存在问题。这一限制通常源于文本编码器无法生成准确的嵌入,这阻碍了视频生成模型。在本文中,我们提出了一种新颖的方法,通过在嵌入空间中进行插值来选择最优文本嵌入以克服这一挑战。我们证明了这种方法使得视频生成模型能够生成所需的视频。此外,我们引入了一种使用垂直脚嵌入和余弦相似性的简单算法来识别最优插值嵌入。我们的研究结果强调了准确文本嵌入的重要性,并提供了一条提高文本到视频生成性能的道路。