LLM2D

摘要

arXiv:2504.05537v1 类型: cross 摘要：我们提出了一种深度学习框架，旨在显著优化基于运动传输的视频应用的带宽，包括视频会议、虚拟现实交互、健康监测系统以及基于视觉的实时异常检测。为有效捕捉复杂运动，我们利用了First Order Motion Model (FOMM)，该模型通过检测关键点及其相关的局部仿射变换来编码动态对象。关键点使用自监督关键点检测器进行识别，并按照连续帧的时间序列进行排列。通过将两种先进的时间序列生成模型（即可变递归神经网络VRNN和带有归一化流的门控递归单元GRU-NF）整合到运动传输流水线中来进行关键点的预测。预测的关键点随后通过光流估计器与生成器网络相结合合成到逼真的视频帧中，从而实现准确的视频预测和高效的低帧率视频传输。我们使用以下指标在三个视频动画和重建数据集上验证了我们的结果：绝对均方误差、联合嵌入预测架构嵌入距离、结构相似性指数以及平均成对位移。我们的结果表明，通过利用变分自编码器的卓越重建特性，VRNN整合的FOMM在涉及多步预测的应用，如视频会议方面表现出色。另一方面，通过利用归一化流架构进行精确似然估计，并实现高效的潜在空间采样，基于GRU-NF的FOMM在生成多样化未来样本同时保持高视觉质量的任务，如实时视频基异常检测方面表现出色。