摘要
arXiv:2404.01438v2 宣布类型: 替换交叉引用
摘要:这项研究探讨了深度假�rah技术在上半身生成中的正面应用,特别是针对聋人和听力障碍者(DHoH)社区的的手语生成。鉴于手语的复杂性和专家的稀缺性,生成的视频由手语专家进行准确性审核。我们构建了一个可靠的深度假顛数据集,使用计算机视觉和自然语言处理模型评估其技术和视觉可信度。该数据集包含超过1200个视频,涉及已知和未知个体,也被用于检测针对弱势群体的深度假顛视频。专家标注确认,生成的视频在真实手语内容方面具有可比性。使用文本相似性评分和译者的评价进行语言分析,显示生成视频的解释与真实的手语至少有90%相似度。视觉分析表明,即使是对新主体,也可以生成令人信服的真实感深度假顛。通过使用姿态/风格转换模型,我们注重细节,确保手部动作准确并与驱动视频对齐。我们还应用机器学习算法为该数据集建立基线,以检测虚假手语视频,从而贡献于深度假顛检测。