LLM2D

摘要

arXiv:2404.01438v2 宣布类型: 替换交叉引用摘要：这项研究探讨了深度假�rah技术在上半身生成中的正面应用，特别是针对聋人和听力障碍者（DHoH）社区的的手语生成。鉴于手语的复杂性和专家的稀缺性，生成的视频由手语专家进行准确性审核。我们构建了一个可靠的深度假顛数据集，使用计算机视觉和自然语言处理模型评估其技术和视觉可信度。该数据集包含超过1200个视频，涉及已知和未知个体，也被用于检测针对弱势群体的深度假顛视频。专家标注确认，生成的视频在真实手语内容方面具有可比性。使用文本相似性评分和译者的评价进行语言分析，显示生成视频的解释与真实的手语至少有90%相似度。视觉分析表明，即使是对新主体，也可以生成令人信服的真实感深度假顛。通过使用姿态/风格转换模型，我们注重细节，确保手部动作准确并与驱动视频对齐。我们还应用机器学习算法为该数据集建立基线，以检测虚假手语视频，从而贡献于深度假顛检测。