LLM2D

摘要

arXiv:2410.04072v2 宣布类型：替换交叉摘要：场景素描是将场景转换为简化和抽象的表示，以捕捉原始场景中的关键元素和布局。它要求对场景进行语义理解，并考虑场景中的不同区域。由于场景中往往包含不同区域的各种视觉信息，如前景对象、背景元素和空间划分等，处理这些不同区域带来了独特挑战。在本文中，我们定义素描为一些贝塞尔曲线的集合，因为它们具有平滑且多功能的特性。我们对输入场景的不同区域进行多轮优化。在每次优化轮次中，从下一个区域采样的笔画可以无缝地整合到上一轮生成的素描中。我们提出了一种额外的笔画初始化方法，以确保场景的完整性和优化的收敛性。我们利用了一种基于CLIP的语义损失和一种基于VGG的特征损失来引导我们的多轮优化。广泛的实验结果证明了我们方法在生成素描的质量和数量方面的有效性。