LLM2D

摘要

arXiv:2504.21846v1 Announce Type: cross 摘要：具有高影响力的语音视频是篡改的首选目标，因为它们易于访问且影响力大。本文提出了一种 Spotlight 系统，该系统通过在事件现场创建动态物理签名并以不可感知的调制光将它们嵌入到所有视频记录中，提供了一种低开销且不显眼的方法来保护实时语音视频免受讲话者身份和唇部及面部动作的视觉篡改。与在数字域中工作的大多数篡改检测方法不同，Spotlight 在事件现场创建动态物理签名，并将这些签名嵌入到所有视频录制中，以不可感知的调制光方式实现。这些物理签名编码了有关语音事件的独特语义特征，包括讲话者的身份和面部动作，并通过加密方式确保不易受到欺诈性篡改。可以从任何下游视频中提取这些签名，并与所展示的语音内容进行验证以检查其完整性。Spotlight 的关键要素包括（1）基于局部敏感哈希生成极其紧凑（即150位）且姿态不变的语音视频特征的框架；以及（2）一种光学调制方案，该方案能够将超过200 bps的数据嵌入到视频中，且不会在视频中或实时中引起注意。在广泛的视频数据集上的原型实验表明，Spotlight 的 AUC 值 ≥0.99，并在检测篡改视频方面实现了整体真实阳性率100%。此外，Spotlight 对记录条件、视频后期处理技术以及对其视频特征提取方法的白盒 adversarial 攻击具有高度鲁棒性。