LLM2D

摘要

arXiv:2410.22233v3 宣告类型：替换交叉摘要：上下文广告通过对用户正在查看的内容进行对齐来投放广告。随着社交平台和流媒体服务上的视频内容快速增长，以及隐私问题的增加，对上下文广告的需求也随之增加。将合适的广告放置在合适的情境中，可以创建顺畅且愉悦的广告观看体验，从而提高受众参与度，并最终改善广告变现。从技术角度来看，有效的上下文广告需要一个能够精细理解视频内容的多模态检索系统。现有的基于联合多模态训练的文本到视频检索模型需要大量数据集和计算资源，限制了它们的实际应用，并缺乏将广告生态系统整合所需的最关键功能。我们提出了ContextIQ，这是一种专门针对上下文广告设计的多模态专家检索系统。ContextIQ 利用特定于模态的专家——视频、音频、字幕（字幕）以及元数据（对象、动作、情绪等）——来创建语义丰富的视频表示。我们展示了在没有联合训练的情况下，我们的系统在多个文本到视频检索基准测试上取得了与最先进的模型和商用解决方案相当甚至更好的效果。我们的消融研究表明，利用多种模态可以提高视频检索的准确性，而不是仅使用视觉-语言模型。此外，我们展示了如何使用如ContextIQ这样的视频检索系统在广告生态系统中进行上下文广告投放，同时解决品牌安全和过滤不当内容的问题。