LLM2D

摘要

人类大脑表现出强大的能力，能够自发地将同一或相似视觉场景的不同视觉属性联系起来，例如将草图和涂鸦与现实世界的视觉物体联系起来，通常不需要监督信息。相比之下，在人工智能领域，可控生成方法（如 ControlNet）严重依赖于注释的训练数据集，例如深度图、语义分割图和姿态，这限制了该方法的可扩展性。受可能有助于大脑联想能力的神经机制的启发，特别是皮质模块化和海马体模式完成，我们提出了一种自监督可控生成 (SCG) 框架。首先，我们在模块化自动编码器网络中引入了一个等变约束，以促进模块间独立性和模块内相关性，从而实现功能专门化。随后，基于这些专门的模块，我们采用了一种自监督模式完成方法进行可控生成训练。实验结果表明，所提出的模块化自动编码器有效地实现了功能专门化，包括颜色、亮度和边缘检测的模块化处理，并表现出类似大脑的特征，包括方向选择性、颜色拮抗和中心-周围感受野。通过自监督训练，联想生成能力在 SCG 中自发出现，展示了对各种任务（例如绘画、草图和古代涂鸦上的联想生成）的出色泛化能力。与之前的代表性方法 ControlNet 相比，我们提出的方法不仅在更具挑战性的高噪声场景中表现出更强的鲁棒性，而且由于其自监督方式，还具有更具潜力的可扩展性。