LLM2D
凝视融合:注意力引导的图像生成
GazeFusion: Saliency-Guided Image Generation
作者: Yunxiang Zhang, Nan Wu, Connor Z. Lin, Gordon Wetzstein, Qi Sun
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2407.04191v2

摘要

arXiv:2407.04191v2 通告类型: replace-cross 摘要:给定一个文本提示,扩散模型能够提供前所未有的图像生成能力。虽然新兴的控制扩散模型的方法使用户能够指定生成内容的空间布局,但由于人类视觉复杂性的原因,它们并不能预测或控制观众将更多关注的地方。鉴于在实际应用中关注点可控的图像生成的重要性,我们提出了一种基于显著性的框架,将人类视觉注意机制的数据先验融入生成过程。给定用户指定的观者注意力分布,我们的控制模块条件化一个扩散模型以生成能够吸引观众注意力指向所需区域的图像。为了评估我们方法的有效性,我们进行了眼动追踪用户研究和大规模模型导向的显著性分析。结果显示,跨用户的注视分布和显著性模型的预测都与所需的关注分布相一致。最后,我们概述了几个应用,包括交互式设计显著性引导、对不希望注意的区域进行注意抑制,以及适应不同显示/观看条件的生成方法。