摘要
arXiv:2503.13500v2 Announce Type: replace-cross
摘要:长时 horizon 任务的视觉指令至关重要,因为它们能够直观地阐明复杂概念,并在执行多步操作时增强记忆的保留。直接使用文本到图像模型生成一系列图像而不考虑前一步骤的上下文会导致图像不一致,增加认知负荷。此外,生成的图像往往会遗漏对象,或者对象的属性如颜色、形状和状态不准确。为了解决这些挑战,我们提出了 LIGER,这是一种无需训练的第一个长时 horizon 任务指令生成框架,结合了逻辑和属性自我反思。LIGER 首先使用历史提示和前一步骤的视觉记忆为每个步骤生成草图图像。这种逐步生成的方法在长时 horizon 任务中保持了图像的一致性。此外,LIGER 利用了各种图像编辑工具来纠正包括错误的属性、逻辑错误、对象冗余和身份不一致在内的草图图像中的错误。通过这一自我反思机制,LIGER 提高了图像的逻辑和对象属性准确性。为了验证生成的图像是否有助于人类的理解,我们手动策划了一个新的基准,包含各种长时 horizon 任务。人类标注的 ground truth 表达反映了人类定义的标准,即图像应该如何出现以起到说明作用。实验表明,LIGER 生成的视觉指令比基准方法更加全面。